Wednesday, October 26, 2016

게놈 빅데이터 시대 :: 몇명의 게놈이 해독 되었을까?

$1000 게놈 시대가 본격적으로 개막된 2015년 이래, 대규모 게놈 해독 프로젝트가 다양하게 전개되고 있다. 현재까지 진행되어온, 혹은 앞으로 진행 계획이 확정 발표된 이런 대규모 게놈 해독 프로젝트들을 정리해 보고, 앞으로의 게놈 산업이 어떻게 변화해 나갈지 가늠해 본다.

대규모 게놈 해독 프로젝트들



대규모 게놈 해독 프로젝트들

1000 Genome 
1000 Genome을 통해 얻어진 게놈 정보는 표준 게놈( GRCh 37, 38 등) 구축에 활용되었으며,  거의 대부분의 게놈 분석에서 기본적으로 활용되고 있다. 최초의 대규모 게놈 해독 프로젝트로, 2008년 부터 2015년 까지  Phase1~3의 단계를 거치며,  총 26개 인종 집단의 2,504명의 게놈이 해독되었다.

Project  : http://www.internationalgenome.org/ 


ExAC( Exome Aggregation Consortium ) 
Broad institute 의 Daniel MacArthur 랩이 주도하여 전세계 연구 기관의 Exome data 를 모은 Meta data 프로젝트로, 현재 까지 60,706명의 Exome 데이터가 모여  단백질 코딩 영역인 exome 영역의 genetic variation 에 대해 가장 체계적이고 깊이 있는 정보를 제공하는 DB로 성장했다.  이 DB는 위에 소개된 1000 genome data 를 포함하고 있기도 하다.

얼마전 막을 내린 2016 ASGH에서는 126,216명의 Exome 과 15,136명의 Whole genome 도합 14만여 명의 게놈을 포괄하는 ExAC의 2차 버전인 gnomAD 가 발표 되어, 명실 상부 현재 까지 지구상에서 가장 많은 인간 게놈을 쌓은 공개 DB 로 자리 메김하고 있다.

ExAC Paper : http://www.nature.com/nature/journal/v536/n7616/full/nature19057.html
ExAC : http://exac.broadinstitute.org/
gnomAD : http://gnomad.broadinstitute.org/


Genomics England( 영국인 10만명 게놈 프로젝트 )
영국의 10만 게놈프로젝트는 영국 공영 의료 보험을 담당하는 NHS 주도로 주창되었는데, 후에 이를 통해 얻어지는 다양한 IP  확보를 위해 영국 보건부가 100% 지분을 가지는 'Genomics England' 라는 회사를 설립해 영국인 10만명 프로젝트를 주관하게 했다.

Genomics England는 회사 이름 임과 동시에 10만 게놈 프로젝트를 지칭하는 또 다른 이름이기도 하다.
NHS가 주도하는 만큼 암과 희귀 질환 등  다양한 질병 cohort 를 포함시켜, 특정 질병에 대한  유전적 연관성을 이해하고 정밀의학/예방의학으로  영국 국가 의료 서비스를 효율과 질을 개선하는데 가장 큰 목표가 있다.

현재 까지 목표의 약 10%인 12,000여개 게놈이 해독되었고, 게놈 이외 cohort 집단의 다양한 phenotype 정보들을 방대하게 수집하고 있고, 추후 효율적 정보 활용을 위해 phenotype 정보를 표준화 하여 수집하고 있다고 한다.

Genomics England : https://www.genomicsengland.co.uk/ 
관련 포스트 : http://goldbio.blogspot.kr/2013/04/blog-post.html  



GenomeAsia 100K ( 아시안 10만 게놈 프로젝트  )
한국의 마크로젠, 싱가폴 난양과학기술대학, 인도의 MedGenome 이 설립 파트너사로 참여하고, 마크로젠 서정선 회장이 4인의 최고 운영 위원 중 한명으로 참여하여, 한국이 leading role 로 참여하는 아시안 10만 게놈 프로젝트.총 20여개 아시아 국가 국민의 게놈이 해독될 예정이고, 앞으로 3년 안에 완료하는 것을 목표로 하고 있다.

서양인을 위주로 진행되어온 게놈 정보 인프라를 아시안 인종에 그대로 적용할 때 어느 정도의 error 를 감수할 수밖에 없다.  아시안 10만 게놈 프로젝트가 완성이 되면, 아시안 인종적 특성이 반영된 게놈 정보를 바탕으로 보다 정밀한 게놈 의학 등 활용이 가능해 질 수 있다.

다만, 10만 게놈 프로젝트를 위한 재원 마련, 다국적 프로젝트인 만큼 일괄적 리더쉽 하에 목표한 3년 안에 10만명의 게놈 해독을 완료하는 것은 쉽지 않을 것으로 생각한다. ( HiseqX-10 을 1년 내내 돌려서 1만 5천명의 게놈 해독 임을 감안한다면 더더욱 ... )

GenomeAsia : http://www.genomeasia100k.com


PMI의 100만 게놈 프로젝트 

오바마 정부의 PMI( Precision Medicine Initiative )의 일환으로 NIH 가 주관해 100만명의 cohort 를 모집해 게놈을 포함한 포괄적인 의료 정보를 모아 정밀의료를 위한 Genome-Phenome 정보 인프라를 구축하려는 프로젝트.

2016년 cohort 모집을 시작해 4년 정도 일정으로 100만명의 cohort 에 대한 데이터 수집을 완료할 목표를 가지고 있다.  NIH 가 주도하고, NCI 는 수집된 cohort 중 암환자 그룹에 집중해 맞춤형 치료법 개발에 집중할 계획을 가지고 있다.

PMI : https://www.nih.gov/precision-medicine-initiative-cohort-program 


Autism Genome Sequencing Project
구글, 토론토 대학, 자폐증 치료를 위한 비영리 단체 Autism speaks 가 함께 힘을 모아 1만명의 자폐증 환자의 게놈을 해독해 자폐증 원인 유전인자를 찾아내려는 목적을 가진 프로젝트. 현재 까지 전체 목표 중 75%인 7500명의 게놈 해독이 완료되었다.

현재 까지 해독된 게놈을 토대로, 총 64개의 자폐증 원인 유전자를 찾아냈고, 이 중 13개는 알려지지 않았던 유전자가 새롭게 발굴된 것이라 한다.  자폐증 게놈 프로젝트를 통해 얻어진 이런 원인 변이를 통해 치료제 개발 등으로 이어져 성공 사례로 남는다면, 이와 유사하게 특정 질병의 원인 변이를 찾으려는 대규모 게놈 해독 프로젝트가 우후죽순 처럼 난립하게 될 거라 생각하고, 신약개발의 한계에 다다른  다국적 제약사들 역시 질병 게놈 해독  대열에 동참하지 않을까? 이미 Astrazeneca가 이런 목적을 가지고 역사상 가장 대규모의 게놈 해독 프로젝트를 진행하기로 결정했다. 이 내용은 바로 뒤에 이어진다.

MSSNG : https://www.mss.ng 
Autism speak on Google Cloud : https://cloud.google.com/customers/autism-speaks


Astrazeneca의 200만 게놈 프로젝트 
거대 다국적 제약사 아스트라제네카가 10년 계획으로 200만명의 게놈을 해독해 신약개발에 활용하려는 목적을 가지고 진행되는 프로젝트로 현재 까지 발표된 게놈 정보 데이터 사업 중 가장 큰 규모.

이를 위해 콜럼비아 대학의 저명한 유전학자 David Goldstein을 최고 과학 고문으로 영입했고( 대학 교수 직과 겸임),   Welcome trust Sanger institute, Human longevity 등과 협력 체제를 다지고, 게놈 해독에는 아스트라제네카가가 대규모 게놈 해독 설비를 갖추는 대신, 이들 기관의 설비를 활용하게 될 예정이다.
( Human Longevity가 50만명 이상의 게놈을 해독할 것이라 한다 )

200만이란 숫자가 들어가는 만큼, 서양인, 아시아인, 아프리카인 등 모든 major 인종을 수십만씩 포괄할 예정으로, 이 프로젝트가 계획대로 진행이 된다면, 더 이상의 large scale genome data project 는 필요가 없을 정도가 될거라 본다.

AstraZeneca는 이 프로젝트를 통해 질병을 일으키는 희귀 변이( rare variant) 들을 찾아내는데 집중할 계획을 가지고 있다. 실제 질병의 발병에는 공통변이(common variant) 보다 각 개인이 가진 희귀 변이들이 더 큰 역할을 하고 있고, 이런 희귀 변이들은 또한 인종 특이적으로 질병에 관여하는 경우들이 많아, 다양한 인종, 다양한 특질을 가진 개인을 포괄해야만 의미 있게 이런 질병 연관 희귀 변이들을 찾아낼 수가 있다. 바로 이런 context 에서 AstraZeneca가 이런 엄청난 규모의 게놈 해독 프로젝트를 기획한 것으로 보인다.

사실, 이런 목표는 위에 언급한 David Goldstein을 이 프로젝트의 최고 과학 고문으로 영입한 것에서 드러난다. David Goldtein은 CDCV( Common disease, common variant ) 즉, 일반 질병은 일반 변이에 의해 발생한다는 큰 가설 하에 지금 까지도 널리 수행되고 있는 GWAS 연구의 '종말'을 선언 하고 ( 참조: http://scienceblogs.com/geneticfuture/2008/09/16/david-goldstein-on-the-failure/ ), 희귀 변이 연구에 집중해야 한다고 설파하고 실천해 온 과학자다.


23andMe
현재 약 150만명 고객의 게놈 데이터를 축적하고 있고, 데이터를 활용한 비즈니스, 신약개발을 이미 시작한 기업. 23andMe의 데이터는 100만개 SNP chip 기반의 genotype 데이터로, 위에 언급한 데이터들이 WES/WGS 인 것을 감안하면 데이터의 잠재 가치는 상대적으로 많이 떨어진다고 할 수 있다.

SNP chip 을 기반으로한 대중 소비자유전학 서비스로, 가격을 낮게해 더 많은 고객을 유치하는 것과 WES/WGS으로 데이터의 가치를 더 할 수는 있지만 비싼 비용으로 적은 숫자의 고객을 유치하는 것 사이의 tradeoff 를 꾸준히 고민하고 있을 것이라 본다.

하지만, WES 의 가격이 매우 낮은 수준으로 내려오고, 개인 게놈 시대가 열리기 시작하는 시점이 곧 눈 앞에 닥친 지라, 머지 않은 미래에  WES/WGS 으로 게놈 해독 플랫폼을 바꿀 가능성이 있다.

23andMe는 다국적제약사 Genentech 과 긴밀한 관계로 신약개발로 사업 확장을 꾀하고 있는데, 이런 움직임이 AstraZeneca의 200만 게놈 프로젝트, 그리고 게놈을 크게 신경 쓰지 않고 있었던 다른 다국적제약사들에게도 게놈 정보 확보 전쟁에 뛰어들게하는 자극제가 되고 있을거라 짐작한다.


Human longevity 
Human longevity는 인간게놈프로젝트의 영웅 크레이그 벤터의 reputation에 기반해 수천억원의 투자를 받아 현재 지구상에서 가장 담대하고 빠르게 게놈 해독 정보를 쌓아가고 있는 회사다. 현재 까지 26,000개 이상의 게놈 해독을 완료했고, 그 중에 1만여명의 게놈 정보를 분석해 최근 논문을 출판했다.

위에 소개된 Astrazeneca 프로젝트에서도 50만건 이상의 게놈 해독을 하기로 계약이 된 것으로 보도가 되기도 했는데,  지금 까지의 행보를 보면 대규모 게놈 해독 프로젝트를 진행하는 곳들 중 가장 빠르고 많은 인간 전장 게놈( WGS ) 정보를 쌓아갈 곳이 될 것 같아 보인다.

10K 논문 : http://www.pnas.org/content/113/42/11901.abstract


* 일본의 1,070명 게놈 프로젝트(http://www.nature.com/articles/ncomms9018 ), 한국의 1,100 게놈 프로젝트, 최근 핀란드 게놈 프로젝트 등 소개된 내용 이외 대규모 게놈 해독 프로젝트들이 다수 존재하나, 필자의 게으름으로 요 정도 선에서 정리 했습니다.



빅 게놈 데이터 시대

그저 많이 읽기만 해선 의미 없다. 
수십만, 수백만의 사람의 게놈을 그저 해독한다고, 의미 있는 '지식'이 생산되지 않는다. 게놈 주인의 Phenotype 정보와 Lifelog 정보가 게놈 정보와 합쳐져야 해당 phenotype에 영향을 미치는 유전적 요인을 찾아낼 수 있고, 이런 타고난 유전적 특성에 매일매일의  식습관, 운동량, 환경요소( chemical exposure ,etc )들이  건강 유지와 질병의 예방에 어떤 영향을 끼치는지를 파악해 낼 수 있다.

PMI, Genomics England, Human longevity 등은 대규모의 게놈 해독과 함께 연구에 참여한 cohort 집단 개개인의 PHR, EMR, wearable device 등을 통한 lifelog 정보 수집 등 게놈 이외의 포괄적인 개인 건강 정보를 수집해 게놈 해독의 가치를 극대화 하는 형태로 전체 프로젝트를 계획해  진행을 하고 있다.


규모 게놈 해독 프로젝트로 부족하다. 
게놈과 phenome 을 포괄하는 정보를 '연구 목적'으로 모으는 대규모 게놈 프로젝트를 통해서 게놈을 통해 해결할 수 있는 문제들을 풀어낼 수 있을 만큼 충분한 정보를 모을 수 있을까?

위에 소개된 대규모 게놈 해독 프로젝트들 중 가장 많은 게놈을 모은 곳은 23andMe 다. 위에 소개된 게놈 해독량의 88%가 23andMe 에서 나왔다. 사실 23andMe는 대규모 게놈 해독 프로젝트를 진행한 적이 없다. 23andMe 는 '유전적 근원을 알고 싶어하는 고객', '유전적인 신체적 특징, 질병에 대한 위험도를 알고 싶어하는 고객' 에게 게놈을 읽어 solution을 제공해 줬을 뿐이다.

IT 시장을 생각해 보자. 개인용 컴퓨터 사용이 개인에 미치는 영향을 연구하기 위해 10만명의 연구집단을 모집해 연구했다면? 그 보다 '게임'을 하기 위해, '타자기를 대신하는 워드프로세서'를 사용하기 위해 전세계 수천만, 수억명의 사람들이 컴퓨터를 구입해 사용하면서 자연스럽게 개인용 컴퓨터의 사용이 개인에게 미치는 심층적인 분석을 가능하게 했다.


데이터가 아닌 '문제'를 해결하는 솔루션을 고민하자.  
수백만, 수천만명의 사람의 게놈 정보를 모아, 의미 있는 게놈 정보 플랫폼이 되고자한다면, '공짜 게놈 보급' 과 같이 일차원적인 게놈 해독에 목멜 것이 아니라,  사람들이 가지고 있는 '문제'를 게놈을 통해 해결하는 '제품'을 공급해야 한다.

그런 의미 있는 제품을 공급할 수 있는 곳이 수백만 수천만명의 고객 게놈을 모아 진정한 게놈 플랫폼으로서 게놈을 통한 다양한 문제를 해결해 낼 수 있을거라 본다.

데이터가 중요하다고 데이터를 모으려고 노력할 것이 아니라, 게놈을 통해 해결할 수 있는 의미 있는 '문제'가 무엇인지에 집중하고, 그 문제를 해결하는 제품을 만들어 공급을 할 생각을 해야 한다.

게놈을 통해 Next google, facebook이 되고 싶다면, 이런 맥락에서 사업을 고민해야 할 거라 본다. 다행히 아직 이런 제품이 지구상에 없다. 아직, 당신에게도 기회가 있다.