From PGI
Contents
반복된 염기서열을 이용한 비단뱀과 두마리 새의 유전체 해독
2012년 임진년 용의 해가 저물고, 다가오는 2013년은 뱀의 해인 계사년이다. 계(癸)는 임(壬)과 함께 검은색을 뜻하므로 흑사의 해, 즉 검은 뱀의 해가 된다. 뱀은 우리나라 설화 속에 주로 민간을 해하는 나쁜 이미지로 많이 등장하기도 하지만, 서양에서는 뱀의 차가운 눈과 기이하게 기는 방법, 강한 독 등으로 고대에서는 미적인 존재로 두려움의 대상으로 숭상되어 왔다.
그 중에서도 이번 호에서는 견공도 주눅들게 하는 최대 6m의 버마왕뱀을 소개하려 한다. 올해 여름 미국 플로리다주 에버글리즈 국립공원에서는 몸에 알을 87개나 품고 있는 초대형 버마왕뱀이 발견되기도 하고, 이 뱀이 독 없이도 사람을 질식시켜서 죽일 수 있다는 보도가 있으면서 주목 받게 되었다. 버마왕뱀(Python molurus bivittatus)이라고 불리는 이 뱀은 주로 동남아시아의 열대 우림, 물가 근처의 반수생 환경에서 서식하며 새나 포유류를 먹이 삼아 살아가는 인도왕뱀 중 가장 대형인 세계 상위 6종 중 하나이다. 길이 7.6m, 무게 180kg까지 자라며 일생동안 성장하며, 가죽의 무늬가 아름다워 파충류 수집가나 가죽시장에서 선호하는 종이기도 하다.
NGS를 이용한 버마왕뱀의 유전체 해독 및 비교
Figure 1 Python molurus bivittatus, Centrocercus minimus, Nucifraga columbiana
미국 콜로라도 의과대학의 생화학 및 분자유전학 연구실에서, 버마왕뱀의 간단한 염기서열의 반복이 이루어지는 유전자의 loci를 차세대 염기서열 해독(NGS; Next Generation Sequencing) 플랫폼 두 가지를 통해 확인하고, 이와 유사한 반복 서열을 가진 두 가지 새와 비교하였다.
DNA 해독 기술과 비용 절감의 지속적인 발전으로 생명과학의 혁신을 유도하며 생태, 진화 유전학의 연구에 큰 영향을 끼쳤다. 결과적으로, Sanger 시퀀싱에 비해 NGS는 시간과 비용이 적게 들고 생산되는 데이터 양이 많아졌다. 예를 들어, 간단한 염기서열의 반복은 유전 연구에 중요했지만 비용과 노력이 많이 든다는 단점이 있었다. 그러나 최근 NGS로 큰 샘플의 적은 loci1)만으로도 효율적으로 유전 정보를 얻을 수 있게 되었다.
Seq-to-SSR 방식의 loci 식별
이번 연구는 Seq-to-SSR(sequencing-to-simple sequence repeat; NGS를 이용한 간단한 염기서열의 반복을 해독하는 방법)을 이용하였으며, 이 방식은 특정 유전체의 레퍼런스가 필요하지 않다. 또한 이번 연구에 NGS 플랫폼은 Illumina의 HiSeq과 GA IIx, Roche의 454로, 생산된 데이터를 비교하는데 이용되었다. 특히 Roche는 반복되는 염기서열의 loci를 식별할 소프트웨어(PCR 프라이머를 타겟팅하여 식별하는 potentially amplifiable locus(PAL))를 개발하였다. 또한 Illumina의 데이터 비용이 급감하면서, 반복되는 염기서열의 loci를 식별할 수 있었다. Loci가 상대적으로 높은 버마왕뱀의 loci를 감지하기 위해 두 조류의 loci와 비교하기 위해, mate paired sequencing2)을 수행하였다.
버마왕뱀의 간단한 염기서열의 반복되는 유전체 내 loci를 증폭시켜 식별하는 방식의 paired-end 서열정보를 이용하였다. 버마왕뱀보다 적은 수의 반복되는 염기서열을 가진 조류 두 가지는 Centrocercus minimus종과 Nucifraga Columbiana 종이 이용되었다. 미소체가 상대적으로 높은 버마왕뱀과 비교하기 위해 상대적으로 낮은 조류 종들을 선택하게된 것이다. Centrocercus minimus 종은 거니슨그루즈라 불리는 닭목 꿩과의 조류로 연구를 수행한 콜로라도 남서부에 분포하는 멸종위기의 텃새이며, Nucifraga Columbiana 종은 캐나다 산갈가마귀로 시베리아와 같은 추운 지방에 분포하는 멸종위기의 텃새이다.
세 가지 종의 샷건 라이브러리를 준비하여 반복되는 염기서열 loci를 동정하였다. 반복되는 염기서열은 TAC, TA의 반복과 역방향의 TG CA, 이동성 TGG, GTG, GGT 등으로 이루어져있었다. PAL_FINDER 기기를 이용하여 라이브러리의 방향을 확인하였고, 역방향은 프라이머의 copy number를 확인하였다.
그 결과 버마왕뱀의 유전체 사이즈는 1.44Gb이고, 두 종의 새는 평균 1.38Gb로 측정되었다. 유전체 사이즈는 반복되는 염기서열 loci 비교 식별을 위해 측정되었다. 버마왕뱀의 반복 염기서열의 데이터를 454와 Illumina 플랫폼으로 비교하였다. 454와 IPE-119K(Illumina paired-end) 데이터는 식별 능력이 유사하게 나왔다. 반복 염기서열의 구조에 따라 loci 크기가 다르고, 증폭되는 loci 구간(2~6mer)3)을 구분하여 식별하였다.
반복 염기서열의 증폭된 loci 식별
또한 이번 연구에서는 반복 염기서열 부위를 해독하여, 증폭되는 loci를 비교하였다. 뱀과 새 유전체의 반복 염기서열 loci가 풍부한 위치를 예측하여, 뱀이 새보다 2배 많은 반복 염기서열 loci를 가진 것을 확인하였다. 세 종의 유전체에서 반복 염기서열에 대해 증폭 loci를 식별한 결과로 새와 비교해서 버마왕뱀에서는 6mer이 특히 풍부한 것을 볼 수 있다. 세 종의 유전체에서 특히 많았던 4mer에 대해 loci 수를 확인한 것이다. 세 종의 반복 염기서열은 비슷하게 나타났지만, 자세히 살펴보면 버마왕뱀에서는 AAAT를 비롯한 다양한 반복 염기서열이 있었고, 두 종의 새에서는 AAAC, AAAG, AAAT가 특히 많이 나타났다.
또한 PAL를 이용하여 대립유전자를 PCR4)하였고, 반복 염기서열의 loci를 증폭시켰으며, loci 주변지역을 필터링하였다. 필터링 된 데이터에서 copy number를 측정한 결과이다. Copy number 측정에서 loci의 수를 확인한 결과, 세 종의 유전체에서 반복되는 염기서열의 80%가 유사했다.
증폭된 loci 중 7개 이상의 4~6mer 부위의 선별이 이루어졌다. 다른 척추동물보다 조류에서는 반복 염기서열이 적은 수로 나타났다. 반면, 버마왕뱀의 경우 반복 염기서열의 길이가 길어 식별이 잘 이루어진 것을 볼 수 있다.
NGS 플랫폼인 IPE와 454의 비교
Illumina paired-end(IPE) 해독은 효율적인 비용으로 증폭된 반복 염기서열 loci을 식별한다. 반복 염기서열의 밀도가 조류에서는 낮게 나타났지만, 식별하기에는 충분했다. 이를 통해 식별된 정보는 진화 유전학 및 매핑 연구에 이용되었다. IPE 데이터는 이동성 유전요소와 미토콘드리아 유전체 또는 반복되는 DNA 조각 데이터를 제공했다. Illumina는 반복되는 숫자가 많은 loci에 대해서는 알 수 없다는 단점이 있지만, 더 큰 대립유전자의 다양성을 확인할 수 있었다. 454는 반복 염기서열의 정확한 수를 계산할 수 있지만 라이브러리의 삽입크기가 크다는 단점이 있다.
이처럼 반복 염기서열의 loci를 식별하는 방법과 소프트웨어는 유전체의 반복 염기서열을 비교하는 데 유용하다. 뱀 유전체에서 반복 염기서열의 길이를 식별하기 위해서는 454를 사용하는 것이 좋고, 뱀과 새 유전체를 비교 분석하기 위해서는 Illumina를 사용하는 것이 더 유용할 것이다.
맺음말
뱀의 해를 맞이하여 유전체 기술의 발전으로 이룩한 성과에 대해 알아보았다. 유전체 기술의 발전으로 인해 기존의 생어시퀀싱에서 NGS로 넘어오게 되었고, 알기 힘든 부위까지 알게 됨으로써 우리가 알 수 있는 유전 정보의 양 또한 많아졌다. 많은 양의 데이터를 빠르고 손쉽게, 저비용으로 얻어져서 다양한 생물종 간의 비교와 분화시기 등을 알게 된 것이다. 유전체 전체를 시퀀싱하여 한 종의 유전정보를 모두 아는 것도 중요하지만, 본 연구는 뱀과 새라는 다른 종에 대한 유전정보를 비교하여 알 수 없었던 정보까지도 알게 된 연구이다. 2013년에도 다양한 유전체 연구가 이루어져서 유전체 기술의 발전과 맞물려 성장하길 기대하는 바이다.
- Loci : 염색상에 유전자가 위치하는 자리
- mate paired sequencing : 라이브러리 2~5Kb로 생성, 최대 게놈에 대한 길이를 읽을 수 있는 해독 기법
- 2~6mer : monomer 이상의 구조
- PCR : polymerase chain reaction, 특정 표적 유전물질을 증폭하는 방법
참고문헌
Rapid Microsatellite Identification from Illumina Paired-End Genomic Sequencing in Two Birds and a Snake
http://www.plosone.org/article/info%3Adoi%2F10.1371%2Fjournal.pone.0030953
A proposal to sequence the genome of a garter snake (Thamnophis sirtalis).
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3111982/
Discovery of highly divergent repeat landscapes in snake genomes using high throughput sequencing.
http://www.ncbi.nlm.nih.gov/pubmed/21572095
저자
글 : hjpark
편집 : Thkim
키워드 : loci, SSR(simple sequence repeat), NGS(next generation sequencing), Sanger sequencing, 454, Illumina, HiSeq, GA IIx, PAL(potentially amplifiable locus) 등