From PGI
Contents
ENCODE 프로젝트 ; 인간게놈의 DNA 통합 백과사전의 발견!
ENCODE 프로젝트의 결과 논문들이 연일 화제가 되고 있다. 인간 유전체의 모든 기능을 가진 요소들을 동정하는 것을 목표로 한 이번 프로젝트는 국립 인간 게놈 연구소에서 단백질과 RNA 수준의 모든 요소들을 포함하여 인간 게놈의 종합적인 백과사전을 만들었다.
총 24편의 논문들 중 이번 리뷰에서는 DNA의 기능을 알 수 없었던 80%의 체계적인 전사체와 전사 인자의 연관성, 염색질 구조와 히스톤 수정1) 영역의 매핑에 관한 데이터에서 유전자를 조절하는 메커니즘과 발현 유전자와의 연관성에 대한 발견에 관한 논문이다.
비 암호화된 RNA, alternative splicing2) 및 조절 서열에 관해서 유전자 간 거리가 멀어, 종 및 개인에 걸쳐 조절 정보의 조직과 다양성의 포괄적인 전망을 하기가 어려웠다. 또한 주석이 60%의 암호화된 진화 부위를 조절하였다. 그러나 강력한 DNA 시퀀싱 기술의 출현으로 광범위한 데이터와 함께 전체 게놈의 정확한 분석이 가능해지면서 정크 DNA에 대한 관심도 높아졌다.
본 연구에서는 147가지 서로 다른 세포 유형으로 GWAS3)와 진화 조절 부위와 다른 부위의 데이터를 암호화하는 실험을 하였다. ChIP-Seq과 DNase I을 분석한 결과, 80.4%의 DNA가 적어도 하나의 세포 유형에 하나 이상의 생화학 RNA 및 염색질에 관련이 있었다. 7가지 상태의 염색질로 독특한 기능적 특성의 수 천 가지 게놈을 분류할 수 있었다. 특히 이번 연구는 질병의 표현형이 특정 세포의 유형이나 전사 인자와 연관이 있는지를 확인하여, 유전자와 게놈의 조절에 새로운 통찰력을 제공하고 생물 의학 연구에 광대한 자원 데이터를 생성하였다는 데 의의가 있다.
ENCODE 데이터 생성과 초기 분석 과정
본 연구는 매핑 요소(RNA-Seq), 단백질 암호화 영역(질량분석법), 전사요소 결합부위(ChIP-Seq, DNase-Seq), 염색질 구조(DNase-Seq, histone ChIP-Seq), DNA methylation(Bisulfite-Seq)을 기본 세포를 포함한 100가지 이상의 세포 유형에서 진행하였다.
Table 1 RNA 전사요소의 분류
단백질 암호화 영역과 전사 부위의 데이터는 엑손에서 게놈의 2.94%, 단백질 암호화 엑손에서 1.2%가 전사된 것을 이용하였다. 또한 유전자 사이 지역에서 57개의 고유 펩타이드4) 서열이 식별되어 추가로 단백질 암호화 유전자를 발견하였다. RNA는 핵 RNA로 tRNA, miRNA, snRNA, snoRNA등 59가지 RNA를 이용하였다. 핵 RNA는 200개의 세포 핵보다 짧은 안정된 상태의 RNA 전사체를 암호화 및 비 암호화된 것의 상당 비율을 차지하였다. 119가지 서로 다른 DNA 결합 단백질의 위치 [Table 1]를 ChIP-Seq으로 확인하여, 72개의 세포 유형은 RNA의 효소 구성요소로, 나머지 98개는 특정 순서의 전사 인자로 분류하였다. DNase I 민감 부위는 염색질 접근성이 조절되는 DNA 영역이라는 특징이 있으므로 25가지 세포 유형에 걸쳐 480만 부위를 매핑5)하였다. 예를 들어, 이종 염색질에 결합을 저해시키는 SETDB1, ZNF274 유전자는 핵의 중요한 부위를 차지한다. 또한 새로운 진화에서 조직별 발달을 조절하며 보존되는 전사 세포의 선택성이 높다.
Table 2 히스톤 수정 또는 변이의 종류와 설명
히스톤 수정 지역은 46가지 세포 유형 중 12가지의 히스톤 수정도 [Table 2]가 변형에 대해 최대 염색체 위치를 분석하였다. DNA 메틸레이션은 유전자 발현의 후성유전학6)을 조절한다. 유전적 메틸레이션은 전사 활동과 상관관계가 있는지, 프로모터 메틸레이션은 조절과 연관이 있는지에 대해 알아보았다. Bisulfite-Seq으로 82가지 세포 라인과 조직에서 120만 CpG의 DNA 메틸레이션을 감지하였다. 이를 통해 암 세포 라인의 loci를 발견하는 서열을 확인할 수 있었다. 염색체 상호작용 지역은 뚜렷한 염색체 영역 사이의 물리적 상호 작용에서 유전자 발현 조절에 중요한 부위이다. 네 개의 세포 유형(GM12878, K562, HeLa-S3, H1 hESC)에서 게놈의 타겟 1% 이내의 전사 개시 부위와 장거리 상호작용의 편향을 감지하였다. 상호 작용하는 loci 쌍은 전사 개시 부위의 유전자 발현 및 강화와 같은 특정 요소의 존재 사이에 강한 상관 관계를 보였다. RNA polymerase II의 다섯 가지 세포 유형에서 염색질의 상호작용을 확인 하기 위해 2,324개의 유전자의 프로모터 영역은 단일 유전자 인핸서로, 19,813개 다중 유전자의 상호작용을 확인할 수 있었다.
결국 예상된 DNase I의 민감 부위 절반이 정크 DNA에서 발견되어, 암호화 서열과 포유류의 진화 조절 중 하나 이상의 기능을 가진 DNA를 관찰할 수 있게 되었다. 기능 선택의 중요성은 인간 게놈의 선택 다양성과 직결된다. 종간의 포유류 진화 중 24종류에서 선택의 다양성이 중요했고, 인간의 변종은 내부 선택에서 시작되었다. 또한 참조 게놈의 배경적 원인, 인구의 다양성 때문에 종 보존성이 유지된 결과를 볼 수 있다.
일부 알려진 유전적 특징과 정크 DNA의 상호작용
이번 연구에서는 일부 알려진 DNA의 유전적 특징과 새로 알려진 정크 DNA의 상호작용을 발표하였다. 첫 번째로 프로모터 부착 부위와의 상호작용은 전사 단백질과 발현된 RNA를 통해 효과적으로 염색질을 수정하거나 전사 인자의 결합 패턴을 예측할 수 있었다. 발현의 뚜렷한 유형을 관찰한 결과, 히스톤 수정의 독특한 패턴과 전사요소의 결합 부위는 선택적으로 풍부하였다(CpG는 빨간색으로 풍부한 피크를 확인 할 수 있고, 전사 개시 부위는 녹색으로 RNA 측정을 확인할 수 있음).
K562 세포의 전사 결과 발현된 전사의 히스톤 수정과의 상호작용에서 H3K27me3와 H3K9me3는 저해하는 결과를 보였다. 전사 인자의 발현 수준에 따른 결합 신호를 확인하였다. 전사인자와 변이 유전자의 히스톤 수정과의 상호작용을 조사한 결과, H3K79me2는 부정적인 영향을 끼치는 반면, H3K36me3는 엑손의 영역에 위치하여 긍정적인 영향을 끼쳤다. 또한 염색질, 전사인자와 RNA 분석의 차이, 다양성과의 일치를 보이며 염색질 구조와 결합 사이의 연관성에 대한 데이터를 제공하였다.
두 번째로 전사인자 결합 부위와 상호작용은 H1 hESC세포에서 H3K27me3의 평균 신호를 농축하여 CTCF 결합 부위의 하위 집합을 발견하였다. 비대칭적인 히스톤 패턴의 높은 비율을 관찰하였다. 가장 왼쪽 열은 모든 위치의 신호를 분할하여 히스톤 수정을 보여준다. 파란 음영처리 된 영역과 상대적으로 위치하는 검은색 선은 평균적인 신호의 분포를 보여 준다. 높은 신호의 구성 요소는 오른쪽의 6가지 형태로 분류하였다.
또한 모든 전사 요소의 데이터 결합 세트에서 DNase I의 신호는 히스톤 수정의 구조와 방향, 패턴의 상관관계를 밝히기 위해, 전사인자가 뉴클레오좀과 히스톤을 수정하였다. 또한 앞서 언급한, 비대칭적인 히스톤 패턴의 높은 비율에서 주변에 장벽을 형성할 수 있는 게놈 전체 규모를 확인하였다.
전사 인자간의 협력은 117가지 요인 중 114개인 97%에서 공통적인 관련성을 보인 3,307쌍을 발견하였다. 프로모터 지역 및 SP1, EP300, HDAC2 및 유전자 간 지역에서 클러스터를 형성하는 것이 관찰되었다. K562 세포에서 전체 게놈에 걸쳐 전사 인자 쌍의 관련성을 색상의 강도로 표시한 것으로, 대부분의 전사 인자는 다른 전사 인자에 대한 연관성을 가지고 있고, 보다 구체적인 연관성을 표시하기 위해 붉은 것이 더 강한 연관성을 의미한다.
게놈 전체의 상호작용
게놈 전체의 기능 영역을 식별하기 위해, 독립적/통합적 요소 또는 암호화를 분석하였다. 또한 게놈 조각의 유효성을 검사하려고 RNA 메틸레이션을 분석하여 게놈 전체의 기능을 식별하였다. RNA 종의 분포는 기본적인 생물학적 활동이 세분화되어 캡쳐되어 있다. K562세포에서 E상태(인핸서로 전사되는 부위)는 EP300, FOS FOSL1, GATA2, HDAC8, JUNB, JUND, NFE2, SMARCA4, SMARCB1, SIRT6, TAL1 단백질 발현 유전자에 의해 암호화된 단백질에 의한 결합이 풍부하다.
인간 게놈의 변이를 발견하기 위해 GM12878의 부모와 함께 대립 유전자 별 변화를 관찰하였다. 이형 위치에 haplotype 신호를 생산하는 대립유전자의 특정 편향에 대한 암호화 부위를 분석하여 헤테로 타입의 SNP 193개와 indel 167,096개를 확인하였다. [Figure 5]는 NACC2 효소 발현 지역에서 결합 단백질 POLR2A, H3K79me2, H3K27me3 분석에서 강한 부모에 편중된 대립 유전자 결과를 보여준다.
인코딩의 맥락에서 개인의 변화와 잠재적 기능 효과에 대한 그림이다. 이형 SNP 또는 유전자 구조의 변동, 조기 종결, 스플라이싱 장애 등에 의해 기능이 손실되는 것을 예측할 수 있다. 개인의 게놈 내에 많은 기능 변종을 나타내는 단백질이 암호화된 유전자에 영향을 미치는 잠재 기능 변종의 유사성을 발견하였다. 부모의 염색체 10번을 비교한 결과이다. 예를 들어, 암과 같이 희귀한 게놈의 분석은 단백질 암호화 영역에 체세포의 변종으로 확인하였다. 또한 상염색체 상의 변이는 종양 원인이 일치하는 세포의 종류에 따라 특정 요소와 주석 영역을 암호화 영역에서 확인 할 수 있었다.
인간의 질병에 관한 위험 및 기타 표현형과 관련된 유전자 loci를 확장하여 4,492개 SNP에 대한 4,860가지 SNP와 표현형의 연관성을 검사하였다. DNase I에 민감한 부위 중 3%가 중복된 SNP로 전사체 결합 부위의 SNP까지 총 71%가 기능 SNP에 편중되어 있었다.
SNP의 정확한 표현형과 풍부한 기능을 제공한다. 예를 들어 크론병7)과 관련된 5가지 SNP는 GATA2 유전자와의 결합 부위를 중복하여 면역적 DNase I 민감 부위에서 발견된다. 염증 질환과 관련된 8가지 SNP를 포함하는 염색체 5p13.1에서는 대립유전자의 변형으로 유전자의 발현을 조절할 수 있다. 이러한 결과들은 SNP가 적어도 일부 기능 또는 기능의 변형에 매우 가깝다는 주장을 뒷받침하는 근거들로 제공되었다.
맺음말
인간 게놈에 대한 우리의 이해를 향상시키고 과학 사회에 귀중한 자원을 제공하는 이번 프로젝트는, 엑손 또는 특정 단백질의 DNA에 결합하는 부위에 대한 연구에서 다른 기능적 특성과 전사 인자의 결합 99%를 발견하였다.
이번 연구를 통해, 이미 전사 인자 및 세포 유형의 다양성에서 절반을 한 가정(부모와 NA12878)에서 최소 20% 게놈을 예측하였다. 유전자 구성 요소와 희귀 유전 질환과 암, 질병에 대한 우리의 이해를 높였다. 대립 유전자 특정 정보 데이터를 암호화하여 결합하면 유전자 변형의 영향을 조절할 수 있다는 결론이다. 결국 인간의 표현형에 미치는 가능한 영향 모두에 게놈 변형을 지정할 수 있다는 것이다. 그러나 모든 변형을 조절하는 것에는 아직 무리가 있을 것이다. 이미 밝혀진 변이나 표현형, 조절 메커니즘의 경우는 가능하지만, 지정되지 않은 유전자 영역이 아직도 많기 때문에 모든 게놈에 지정할 수 있다는 말은 아직은 무리일 듯 하다.
차후 후성 유전학 프로젝트나 인간 게놈 해독의 보완 및 추가 수정으로 데이터를 확대하는 결과를 얻어 인간 게놈에 대한 기초 자료를 구성하고 건강과 질병에 중요한 통찰력을 제공하게 될 것이다.
- 히스톤 수정(histone modification) : 염색질의 주요 단백질 구성성분으로 DNA 주위를 둘러싸고 있는 히스톤이 느슨해 지거나 응축되었을 때 DNA 사이사이에 다른 인자들이 끼어들어가서 일어나는 수정
- alternative splicing : DNA로부터 단백질이 만들어지는 과정에서 1차적으로 DNA가 복제되어 만들어진 pre-mRNA 내의 비발현 부위(intron)가 제거되고 발현부위(exon)끼리 연결되는 과정. 결과적으로 하나의 유전자로부터 다양한mRNA가 만들어질 수 있는 것이다.
- GWAS : Genome-wide association study. 병질환 및 약물 반응성에 대한 유전적 요인을 총체적으로 탐색하는 연구 방법을 말하며, 일본 이화학연구소의 Ozaki(2002) 그룹에서 최초로 시도된 연구 방법.
- 펩타이드 : 아미노산이 한쪽 아미노산의 카르복실기(-COOH)와 다음 아미노산의 아미노기 사이에서 물이 떨어져 나가고 차례로 연결해 사슬모양을 이룬채 화학결합한 것을 말하며 이 결합을 펩타이드 결합이라 한다. 폴리펩타이드는 이러한 아미노산 수천 개가 하나로 모여 있는 것. 재조합움 기술을 이용하면 특정 펩타이드를 용기내에서 대장균을 가지고 합성 할 수 있다.
- 매핑 : 어셈블리 된 염기 서열을 참조 게놈에 이어붙여 지도화 하는 작업
- 후성유전학 : DNA의 염기서열이 변화하지 않는 상태에서 이루어지는 유전자 발현의 조절인 후생유전적 유전자 발현 조절을 연구하는 유전학의 하위 학문이다. 이를 매개하는 분자적 수준의 이해는 아직 완벽하지 않지만, 일반적으로 CpG 염기서열 가운데 시토신 염기에 특이적으로 일어나는 DNA 메틸화와 히스톤의 변형에 의해 조절되는 크로마틴 구조의 변화에 두 가지의 기전이 주요한 역할을 하는 것으로 알려져 있다.
- 크론병 : 크론병은 입에서 항문까지 소화관 전체에 걸쳐 어느 부위에서든지 발생할 수 있는 만성 염증성 장질환이다. 궤양성 대장염과 달리 염증이 장의 모든 층을 침범하며, 병적인 변화가 분포하는 양상이 연속적이지 않고 드문드문 나타나는 경우가 많다. 대장과 소장이 연결되는 부위인 회맹부에 질환이 발행하는 경우가 가장 흔하며 그 다음으로 대장, 회장 말단부, 소장 등에서 흔히 발생한다. 병적인 변화가 회장과 맹장에 같이 나타나는 경우가 40~60%로 가장 흔하고, 소장에만 염증이 생기는 경우가 30%, 대장에만 발병하는 경우가 10~25%를 차지한다.
참고자료
An integrated encyclopedia of DNA elements in the human genome
http://www.nature.com/nature/journal/v489/n7414/full/nature11247.html
Functional analysis of transcription factor binding sites in human promoters.
http://genomebiology.com/2012/13/9/R50
Extensive promoter-centered chromatin interactions provide a topological basis for transcription regulation
http://www.cell.com/abstract/S0092-8674(11)01517-0
저자
글 : hjpark
편집 : Thkim
키워드 : ENCODE project, DNase I, alternative splicing, H3K79me2, K562, hESC, ChIP-seq, RNA-seq, DNase-Seq 등