Notice04 ENCODE project3

From PGI

Jump to: navigation, search

ENCODE 프로젝트; 인간 세포의 전사체 비밀을 풀어내다!

 

  ENCODE 프로젝트의 결과 논문들이 연일 화제가 되고 있다. 인간 유전체의 모든 기능을 가진 요소들을 동정하는 것을 목표로 한 이번 프로젝트는 국립 인간 게놈 연구소에서 단백질과 RNA 수준의 모든 요소들을 포함하여 인간 게놈의 종합적인 백과사전을 만들었다.


  총 24편의 논문들 중 이번 리뷰에서는 RNA는 유전체 기능을 이해하는 데 매우 중요하며, 현재의 주석 수정과 이전의 주석이 없는 RNA를 관찰하여 유전자의 개념의 재정의에 관한 논문이다. 인간 유전체의 기능을 식별하고 특징적인 순서를 확인하자는 목표의 일환으로 인간의 세포에 의해 생성된 RNA로 세포 아래의 지방화를 식별하였다. 이번 연구는 15개 세포에 대한 핵과 세포 기질 중 하나에서 새로운 RNA의 식별 및 특성을 보고하였다.


  인간 세포 62.1% 중에서 56.7%는 발현된 전사체의 결합 이상을 보였다. 인간 게놈의 747% 유전자의 인근 영역이 중복되어, 유전자 사이(intergenic) 길이가 감소한다. 유전자에 의한 이소형 표현은, 세포 당 유전자 10~12개에 대한 많은 이소형1)을 표현하는 유전자에 대한 경향을 보여준다. 세포 유형 별 새로운 RNA의 식별, 염색질 표지, DNase I 과발현 부위(DHS)의 존재로 다른 조절 지역에서 분화를 강화한다.


RNA 데이터 생성

 

   본 연구에서 사용한 RNA-Seq과 데이터를 분석한 흐름도이다. 긴 RNA는 poly A로 표지된 것과 안된 것으로 구별하여 RNA-Seq를 실시하였다. RNA-Seq 데이터를 FATSQ2)로 매핑하여 드노보 요소(TSS; 전사 개시 부위, contigs, 전사체, 절단부위, PET 클러스터 등)를 조립하고 계량화하였다. 90%를 재현하여 원시데이터와 DCC(Data Co-ordination Centre; 인코딩 데이터 조정센터)의 결과를 비교 분석하였다.


긴 RNA 발현(RNA-Seq)

 

  누적된 annotation splicing3) 접합 부위와 유전자의 70%를 확인하여, 주석과 새로운 전사체를 감지하였다. 또한 96%의 RNA-Seq의 contigs 평균 범위와 85%의 엑손을 발견하였다. GENCODE 요소의 극소수(엑손의 0.4%, 스플라이싱 부위의 2.8%, 전사체 3.3%, 유전자의 4.7%)만이 poly A로 표지되지 않은 RNA로 구별된다.


  RNA-Seq의 contigs으로 발현된 새로운 요소의 상당수를 세포핵의 인트론(intronic) 78%와 유전자 사이(intergenic) 34% 관찰하였다. 또한 모든 긴 RNA-Seq 샘플을 통해 총 41,204개 유전자를 예측하여 GENCODE 데이터를 증가시켰다. 엑손 확인은 로슈의 454와 질량 분광법4)을 이용하여 RNA-Seq을 실시하여 3개의 구조 변이에서 56개 유전자를 확인하였고, 이와 관련된 419개 새로운 모델을 구축하였다.

 

  K562 세포의 염색질, 인, 핵질에서 분리된 RNA를 분석하였다. 15개 모든 세포에 대해 GENCODE(v7)로 주석을 달아 확인하였다. 또한 세포 하위 구획에서 발견된 많은 새로운 주석이 달리지 않은 유전자에 대해서는 세포 아래 공간에서 짧고 긴 RNA를 분석하여 접합 부위를 측정하기 위해 RNA-Seq 결과 데이터를 이용하였다. 대부분의 엑손 주위의 염색질에 인트론 관련 RNA가 스플라이싱 되고 있는 것을 관찰하였다.

 

  유전자 발현의 관측 범위는 poly A가 붙은 RNA와 붙지 않은 RNA로 나누어 관찰하였고, 단백질 암호화에 대한 전체 세포에 비 암호화된 새로운 유전자의 전체 유전체 발현이 나타나는 대표적인 두 유전자(파란색 H19, 빨간색 ACTG1)로 표시하였다. 결과적으로 세포 구획에서 유전자 유형의 풍부함이 밝혀졌다. 스플라이싱 패턴은 유전자가 동시에 여러 이소형을 표현하여 전체 단백질 암호화 유전자와 발현의 다양성에 기여했다.

 

  GENCODE와 RNA-Seq, TSS 데이터를 DNase 과민성, 염색질 수정 및 DNA 결합 요소로서 전사 개시의 특정 염색질과 DNA 기능에 관련된 비교 분석을 수행하였다. 또한 핵에 비해 세포 기질의 poly A 부위의 세포 유형을 관찰하였다.


Small RNA 발현 

 

  Small RNA는 세포질과 핵 구획 사이에 분포하며, 기능에 따라 miRNA, tRNA, snoRNA5)로 나뉜다. 특히 snoRNA는 염색질과 관련된 RNA 분획에 높은 발현성을 나타내었다. 또한 주석이 없는 짧은 RNA는 작지만 snoRNA의 개시부위와 miRNA의 서열에서 발견되었다. 하지만 tRNA는 독특한 대립 유전자에만 국한되어 발견되었다. 그리고 외부에 매핑된 새로운 짧은 RNA는 주석이 달리지 않은 RNA의 40%가 프로모터 및 종결 유전자 영역에서 발견된다.

 

  RNA는 small RNA의 대부분이 인트론(intron)에 위치하지만 IncRNA 중 snoRNA는 엑손(exon)에 위치했고, 또한 GENCODE의 8.4%는 tRNA가 유전자 사이(intergenic)에 중복 매핑된 점에서 확인하였다.


  시퀀싱을 필터링하고 편집한 RNA를 식별할 수 있는 파이프라인을 개발하여 GM12878을 분석하였다. 총 51,557개 RNA는 유전자 경계에서 일관성 있는 단일 염기변형(SNV) 65%를 dbSNP로 사용하였다. 그 중 1,186개 SNV에서 430개 유전자의 88%가 AG 변이, 5%가 TC 변이를 확인하였다. 또한 SNP의 대립유전자 시퀀싱 파이프라인을 사용하여 주석이 달린 단백질 암호화 유전자와 암호화되지 않은 유전자의 대립 유전자 발현특징을 확인하였다. 대립유전자의 발현 특징과 유전자의 비율은 세포, 세포질, 핵에서 비슷하게 나타났다.


  TSS 지역의 약 18%가 반복적인 요소를 중복된다. 세포에서 Shannon 엔트로피6)를 측정하여 반복적인 매핑 클러스터가 좁은 유전자 영역 내에서 매핑되는 클러스터보다 발현이 높았다. 세가지 반복 요소(LINE; long interspersed element, SINE; short interspersed element, LTR; long terminal repeat)가 세포 유형에 따라 발현 수준의 상관관계를 밝혀냈다.

 

맺음말

  최근 RNA polymerase II7)의 일부 말단 영역을 결합하여 RNA 인핸서(inhencer)8)로 보고되었다. 이번 연구는 게놈 전체의 예측된 강화 loci9)에서 전사 활동을 감지하고 특성화 하기 위해 RNA 분석으로 염색질 면역 침강법과 NGS(ChIP-Seq) 데이터를 이용하였다. RNA-Seq과 DNase I 민감 부위로 예측 유전자 말단의 특정 서열 패턴을 확인하였다. 또한 RNA 인핸서 부위는 H3K4 methylation, H3K27 acetylation, RNA polymerase II 결합 H3K79 dimethylation, 전사 개시 및 연장으로 GM12878 세포의 RNA 다섯 가지에 비해 생산자 태그에 H3K27ac histone modification이 확인되었다.


  연구한 샘플에 따라 유전적 주석이 달린 유전체 영역의 증가로 인해 전사를 확인하는 기술을 선택할 수 있게 되었다. 또한 유전자 중복 지역의 증가로 이소형 및 표현형의 특징을 정의하여 유전자 사이 영역의 길이가 감소되었다.




  1. 이소형(iso form) : 유전자의 같은 위치에서 생산하는 전사체가 서로 다른 형태의 mRNAs 전사 시작 사이트(TSSs), 단백질 코딩 DNA 시퀀스(CDSs), 번역되지 않은 지역(UTRs)으로 잠재적으로 다른 기능을 유발.
  2. FATSQ : 차세대 시퀀서에서 사용하는 데이터 포맷은 FATSQ 포맷으로 인간이 읽을 수 있는 텍스트 파일 형태로 biological sequence(일반적으로 nucleotide sequence)와 이에 상응하는 quality score로 구성된 파일이다. 즉 각 nucleotide base마다 해당 base가 얼마나 정확하게 읽어낸 것인지에 대한 quality가 함께 포함된 파일로 산업계의 표준 (de facto) 으로 Illumina Genome Analyzer와 같은 시퀀서에서 사용된다. 일반적으로 FATSQ 파일의 확장자는 정해진게 없지만 주로 사용하는 확장자로는 .fq, .fastq, .txt라는 확장자를 사용한다.
  3. 스플라이싱 : 유전 정보를 가지고 있지 않은 부분인 인트론으로 구분되어 있는 유전자의 제1차 전사 산물인 RNA에서, 인트론 부분을 제거하고 유전 정보를 지닌 엑손 부분만을 이어 붙여 단일 폴리펩타이드 사슬에 번역하기 위한 mRNA로 개조 과정. 진핵생물에서는 mRNA가 세포질로 옮아가기 전에 핵 내에서 이루어지는 것으로 보고 있다. 그러나 원핵생물에서는 유전자에 인트론이 없이 전사와 번역 과정이 일어나므로 전사 산물이 그대로 mRNA로 된다. 이때는 스플라이싱을 위한 효소계는 없다고 한다.
  4. 질량 분광법 : 시료를 기체화 후 이온으로 만들고 가속시켜 질량 대 전하 비에 따라 이온을 분리하여 질량 스펙트럼을 얻게 된다. 시료 물질의 원소 조성에 대한 정보와 분자 구조에 대한 정보, 복잡한 혼합물의 정성, 정량 분석, 고체 표면의 정보, 시료에 존재하는 동위원소 비에 대한 정보를 얻을 수 있다. 또 ICP를 같이 사용하여 금속원소를 분석할 수 있고 μLC나 CZE, SFC를 같이 사용하여 초미량 혼합물을 분석할 수도 있다. 보통 질량 분석법은 광학분광법보다 많은 원소들의 검출 한계가 다른 광학법보다 103배 정도 더 좋고, 스펙트럼이 매우 간단하여 쉽게 해석이 가능하고, 원자의 동위원소 비를 측정할 수 있는 능력을 가지고 있다. 다만 고진공, 고전압이 필요하여 구입비와 유지비가 고가인 것이 단점이다.
  5. miRNA, tRNA, snoRNA mRNA : microRNA. 생물의 유전자 발현을 제어하는 역할을 하는 작은 RNA tRNA : 단백질 합성 시 상보적인 안티코돈을 가지고 있어 mRNA에 해당 아미노산을 운반해 주는 RNA snoRNA : small nucleolar RNA. 다른 RNA의 수정을 인도하는 작은 RNA
  6. Shannon 엔트로피 : H = - sigma(p*log(p))
  7. RNA polymerase II : 유전자 복사 작업을 개시
  8. Inhencer : 유전자 상위에 존재하는 특정 서열로 전사를 도와줌
  9. Loci : 유전자가 염색체 혹은 염색체지도상에 차지하는 위치. 유전자 자리. 염색체 상에서의 1개의 유전자가 점하는 위치를 말함.





참고문헌

Landscape of transcription in human cells

http://www.nature.com/doifinder/10.1038/nature11233

Long noncoding RNAs in cell and developmental biology

http://www.sciencedirect.com/science/article/pii/S1084952111000139

The GENCODE exome: sequencing the complete human exome.

http://www.ncbi.nlm.nih.gov/pubmed/21364695



저자

글 : hjpark

편집 : Thkim

키워드 : ENCODE project, RNA polymerase II, H3K4 methylation, LINE(long interspersed element), SINE(short interspersed element), LTR(long terminal repeat), RNA-Seq 등