Notice04 Human Exome sequencing

From PGI

Jump to: navigation, search

대규모 엑솜분석 수행으로 알아본 인간의 유전변이

 

  인간의 유전자 변이를 조사하려면, 우리의 진화역사를 이해하는 것이 중요하다. 유전자 변이의 양적 분포 시기(연대)를 평가하기 위해 유럽계 미국인(EA)과, 아프리카계 미국인(AA) 6,515명의 15,336개 유전자에서 1,126,401개의 단일변이(단일변이)를 찾아냈다. 이러한 인간의 대규모 유전변이 조사를 통하여, 많은 변이가 최근에(5,000~10,000년 전) 일어난 것을 알아낼 수 있었으며, 이는 질병 유전자 발견을 위한 새로운 접근방식으로의 개발을 촉진하는 데에 도움이 될 것이다.

 

엑솜(exome)해독의 수행과정 설명

 

  유럽계 미국인 4,298명과 아프리카계 미국인 2,217명의 총 6,515명을 대상으로 미 국립보건원(NIH) 산하 NHLBI(Heart, Lung and Blood Institute)에서는 엑솜해독 프로젝트를 실시하였고, 여러곳의 연구센터에서 해독을 진행하였다.

 

  해독된 데이터는 미시간 대학의 UMAKE 생정보학 파이프라인 을 사용하여, 단일변이(단일변이) 감지, 중복 제거와, 재보정 등의 생명정보 분석 과정을 거쳐 엑솜 지역의 50개의 유전자형을 확인하였다. UMAKE는 단일변이들을 감지하고 해독후 나온 BAM 이라는 파일의 목록에서 자신의 유전자형(Genotype)을 호출 할 수 있는 소프트웨어 파이프 라인이다. 이후 SVM(Support Vector Machine) 알고리즘 필터링을 통해 유럽계 미국인(EA), 아프리카계 미국인(AA), 기타 (아시아, 히스패닉, 미국 원주민 등) 총 6,823개 엑솜에 대한 조상 추론 및 식별 과정을 거쳤다.

  

  유전자 조상을 추론 및 식별하기 전, 중복 제거를 위해 필터링 된 데이터에 KING analysis을 수행하였고 그 결과 242개가 제거되었다. KING analysis는 모든 개인 쌍을 비교하여 혈연관계를 식별하는 방법이다.

 

  PCA(Principal Component Analysis)를 실시 후 나뉜 두 유전자 그룹을 보여주고 있다. PCA(주성분 분석)란, 주요한 성분을 찾아내어 그 성분을 기준으로 자료를 배열하는 것으로 자료의 요약과 용이한 해석을 목적으로 한다. 분석 대상에서 아시아계, 히스패닉계, 미국 인디언의 샘플들(일부 AA와 EA도 포함)은 제외되었고, 유전자 성 결정과 self-declared 사이의 일치되지 않는 것들과 감지율이 80% 되지 않는 13개 또한 삭제하였다.

 

  하디-와인버그 평형을 크게 벗어난 변이들을 제외한 최종 데이터는 유럽계 미국인 4,298명(남성 1,879, 여성 2,419)과 아프리카계 미국인 2,217명(남성 582 여성 1635)으로 이루어졌다. 하디-와인버그 평형(Hardy-Weinberg equilibrium)이란 대를 거듭하더라도 유전자 풀에서 대립 유전자의 존재 빈도가 변하지 않고 평형상태를 유지한다는 원리를 말한다.

 

단일변이의 대부분은 최근에 일어났다.

 

  7,310명의 집단을 시뮬레이션하여, 가정한 유전소(allele: 대립형질)의 유효성을 검증하였다.

 

  유럽계 미국인과 아프리카계 미국인의 최근 인구성장의 가속화에 따른 인구통계학적 모델을 기반으로 수행된 시뮬레이션이다. 변이빈도 스펙트럼: SFS (site frequency spectrum)와, 유전소의 나이에 대한 최근의 인구성장 가속화의 효과, SFS와 유전소 나이의 이주 속도에 따른 인구의 차이, 유전소 나이의 SFS에 미친 선택의 효과를 보여준다. 인구 성장 가속화에 따라 희귀한 변이가 축적되는 것을 볼 수 있었다.

 

  유럽계 미국인과 아프리카 계 미국인의 단백질 코딩 변이의 SFS에서 희귀한 변이가 크게 증가된 모습을 볼 수 있다. 주어진 유전소 나이의 단일변이의 누적 비율로서, 지난 5만년 동안 발생한 것으로 추정되는 단일변이의 누적 비율을 강조한다. 전반적으로 단일변이의 73.2%가 지난 5,000년에 발현 한 것으로 예상되며, 50,000년 전에 발생한 단일변이는 아프리카계 미국인 샘플에서 더 많이 발견된 모습을 볼 수 있다. 이는 최근 발현한 것으로 예상되는 단일변이들이 폭발적인 인구증가에 관련한다는 것을 알 수 있다. 유럽계 미국인과, 아프리카계 미국인에서 발견된 모든 단일변이의 유전소 나이를 나타내는 그래프로, 유럽계 미국인에서보다 아프리카계 미국인에서 앞서 있었다. 기능유형에 따라 유전소 나이에 차이를 보인다.

 

  유전소 나이의 추정에서 단일변이의 전체 평균 나이가 2배의 큰 차이가 나는 결과로 다른 인구학적 모델(demographic model)에 비하여 눈에 띄는 차이가 보였다. 따라서, 아프리카계 미국인도 유럽계 미국인의 1.95%, 아프리카계 미국인의 1.66%의 가속된 인구 가속률이 5,115년 전에 시작된 것을 확인되었다. 인구학적 모델을 보면 5,000~10,000년 구간에서 결함성 단일변이의 비율이 높아진다. 이는 인구의 증가가 가속화됨에 따라 유해돌연변이의 발생이 많아진 것으로 예상된다.

 

   결함성 변이를 예측하는 방법으로 단백질의 아미노산 변이와 그 외 단일변이의 유전소 나이를 보여주며, 그래프 위쪽 원 그래프는 5,000년 전에 나타난 유해 단일변이의 비율을 나타낸다. 결함성 단일변이의 발현과 유전소 나이가 관련성이 있는 것으로 예측하여, 유해 단일변이의 99% 이상이 최근 15만년 동안 발생한 것으로 추정되고 있다.

 

  결함성 단일변이를 확인하기 위해, 아미노산 변이에 네 가지 예측방법(SIFT, PolyPhen2, a likelihood ratio test, Mutation Taster)을 사용하였고, 다른 변이들은 두 가지 예측방법(GERP11, PhyloP)을 사용하였다. 변이들의 선택적 진화가 이루어지는 과정에서 급격한 인구 증가로 인해 선택이 불가능해 졌다는 것을 알 수 있다.

 

  이러한 방법들은 실질적으로 결과가 다를 수 있기 때문에, 단일 방법만으로는 정확도가 떨어진다. 그래서 결함성 단일변이의 더 정확한 집합을 식별을 위하여 다수결 원칙 접근법(majority rule approach)을 사용하였고, 이 결과에서도 단백질 영향 단일변이는 결함성 주요 변이임이 확인되었다.

 

  유럽계 미국인과 아프리카계 미국인의 결함성 단일변이의 밀도를 보여주며, y축은 염색체의 수를 나타낸다. 최근 인구증가 시기에 발생한 하나 이상의 결함성 단일변이에 관련된 유전자 수를 확인한 것이다. 이러한 결과로, 단일변이의 86.4 %가 인구의 증가에 맞추어 발현할 것으로 예측되었다(유럽계 미국인 91.2%, 아프리카계 미국인 77.0%). 5,000년 이하의 시간에서 결함성 단일변이 수가 유럽계 미국인 7,197(57.4%), 아프리카계 미국인 4,534(37.5%)로, 최근의 인구성장 시기와 일치한다.

 

  유럽계 미국인의 3개, 아프리카계 미국인에서 18개의 유전자는 최근의 인구증가 이후 결함성 변이의 발현이 상당히 증가되었고, LAMC1(조기폐경), LRP1(알츠하이머), CPE(관상동맥 죽상경화증), KIAA0196(유전적 하반신 경직마비) 등이 19개의 질병과 관련이 있었다.

 

  변이 발생시기를 나타낸 함수로 현재에 이르기까지 결함성 변이가 남아있을 확률을 추정한 것이다. 음영 사각형의 부위는 인구 병목현상의 지속 시간을 나타낸다. 결과적으로, 병목 현상은 유전자의 선택적 진화를 억제시켜 유해 단일변이 발생을 높인다(그림은 논문을 참고).

 

  결함성 변이의 유전소 나이가 6개의 KEGG(Kyoto Encyclopedia of Genes and Genomes) 경로마다 크게 다른 것을 알 수 있다. 경로 각각의 결함성 변이에 대한 비율을 Kluskal-Wallis test 한 결과로, 신진대사(Metabolism)의 경로에서 나타나는 결함성 변이의 비율이 가장 높다. 결함성 변이와 유전소 나이의 비율 사이의 관계는 신진대사가 다른 경로에 비해 상대적으로 적은 제약이 있기 때문에, 결함성 대립 유전자가 더 느리게 선택진화 되는 까닭으로 보인다. KEGG 경로에서 결함성 단일변이의 비율을 보여주는 그림으로 모든 235개 기능에서 다르게 보여진다.

 

  이는 각 경로에서의 기능마다의 선택적 진화의 차이에 따라, 결함성 변이에 대한 유전소 나이의 차이가 있었으며, 일반적으로 다른 경로보다 Metabolism 경로의 유전소 나이가 더 오래 되었으며, human disease 경로의 유전소 나이는 더 최근이라는 것을 알 수 있다.

 

 

맺음말

 

  과거의 단백질 코딩 변이 스펙트럼은 오늘날과 상당히 다르다. 이 연구로 결함성 단백질 코딩 영역 중 86.4%는 지난 5,000~10,000년간 발생했다는 것을 알 수 있었다. 이것은 급속한 인구 증가 과정 속에서 유전자 선택진화를 위한 충분한 시간이 없었기 때문에 이러한 변이가 급증한 것이라 추론된다. 따라서, 해롭고 희귀한 변이들이 표현형의 변화와, 질병 민감성, 약물반응의 부정적인 효과가 유전되는 데에 큰 역할을 했을 가능성이 보인다.

 

  본 연구 결과는 급격한 인구 증가에 따른 희귀한 변이들의 발생을 알아냄으로써, 인간의 진화와 질환에 대한 이해도를 높이고, 예측하는 데에 중요한 자료로서 활용될 수 있을 것이다. 

 

 

참고문헌

 

Analysis of 6,515 exomes reveals the recent origin of most human protein-coding variants

http://www.nature.com/nature/journal/v493/n7431/full/nature11690.html

Recent explosive humanpopulation growth has resulted in an excess of rare genetic variants

http://www.sciencemag.org/content/336/6082/740

An abundance of rare functional variants in 202 drug target genes sequenced in 14,002 people.

http://www.readcube.com/articles/10.1126/science.1217876

 

 

저자

 

글 : Jung.EunByoul

편집 : Jong.Bhak

키워드 : 결함성 단일변이 (deleterious 단일변이), 유전소 나이(allele age) 등