Monday, May 29, 2017

비전문가를 위한 유전자 정보 기반 산업에 대한 이해

 "유전자 해독( Genome sequencing)'을 아웃소싱하면 핵심기술은 그 회사에 있는 것 아닌가요? 3billion은 그럼 뭘 하는 건가요?"

3billion 시작하고, 기자나 VC 분들에게 아주 빈번하게 받는 질문인데, 아마도 전문가 분들이 아니라면 모든 유전 정보 사업에 대해 가질 수 있는 의문일 수 있겠다 싶어 비전문가 분들이면서 유전자 정보 산업에 대해 궁금해 하시는 분들의 시각에서 답변을 정리해 본다.





유전자 분석 과정에 대한 이해 

사실 위 질문은 유전자 분석 이라 통칭되는 두리 뭉술한 용어에 대한 오해에서 근원하고 있는 것 같다. 보통 '유전자 분석( Genome analysis)' 이라는 용어를 사용할 때는,  여러 단계의 과정을 포괄해 이야기하는 경우가 많은 것 같다.

보통 유전자 분석이라는 용어를 쓸 때  크게 '유전자 해독( Genome sequencing or genome decoding)'과 해독된 Data를 분석해 원하는 목적의 정보를 얻어내는 '유전자 정보 해석( interpretation )' 두 가지를 모두 포괄해 사용하는 경우가 많다.

'유전자 해독'은 우리 몸 세포 안의 게놈에 있는 30억 쌍의 DNA 염기 서열을 읽어내는 과정을 의미 한다. DNA는 A,G,T,C 4개의 염기로 구성되어 있다. 따라서 유전자 해독은 이 4개의 염기 A,G,T,C 로 구성된 30억개의 DNA 염기 서열을 읽어내어, 30억개로 이루어진 문자 서열을 얻어내는 과정을 의미한다.

2003년 완성된 인간게놈프로젝트가 바로 '유전자 해독'을 목적으로 한 연구 프로젝트 였고, 이를 통해 인류 최초로 30억 쌍의 염기 서열을 처음 부터 끝까지 읽어 낼 수 있었다. 당시 이 한벌의 염기 서열을 해독해 내는데 27억 달러 우리 돈 3조원 가까운 비용이 들었다.

최초의 인간 게놈이 완성된 이래로 유전자 해독 기술은 매 1.8년 마다 2배씩 성능이 개선된다는 반도체 무어의 법칙을 가볍게 능가하는 속도로 매우 빠르게 발전되어, 2014년 말 기준 한 사람의 전체 게놈을 해독하는데 $1000, 우리돈 100만원 수준으로 낮아졌다.

유전자 해독 기술이 이렇게 빠르게 발전해, 이제 유전자 정보가 필요한 사람이라면 누구든 유전자 해독을 통해 자신의 유전자 정보를 획득할 수 있는 시대가 펼쳐진 것이다.

유전자 해독이 가능해졌으니, 이제 게임 끝! 인가? 아니다.

유전자 해독은 30억 쌍의 DNA 염기 서열을 해독한 text 정보일 뿐, 이 정보를 활용해 필요로 하는 다양한 용도로 활용하기 위해서는  '유전자 정보 해석' 기술이 필요하다.



백만원 유전자 해독, 십억원 유전자 해석 시대

게놈 해독 비용이 낮아져 많은 게놈이 생산되면서, 이를 해석하기 위한
비용이 그에 비례해 막대하게 증가하고 있는 상황을 보여주는 그래프
( 이미지 출처: http://epilepsygenetics.net/2014/06/27/when-will-we-have-the-1000-epilepsy-genome/ )

$1000 게놈 시대가 가시화 되면서, '백만원 게놈 해독, 십억원 게놈 해석( $1000 genome, $1,000,000 genome interpretation)' 시대라는 캐치프레이즈가 등장했다. 유전자 해독 기술이 빠르게 발전해 대중화 될 수 있을 정도로 가격이 낮아져 많은 게놈이 생산되면서,  이들 게놈 정보를 활용해 질병 진단 등에 활용하기 위한 '유전자 해석'에 막대한 비용이 필요한 시대가 펼쳐진 것이다.

'유전자 해석( Genome interpretation)'은 앞서 설명한 유전자 해독과정을 통해 생산된 DNA 염기서열 문자 정보로 구성된 Raw data를 필요한 용도로 가공하고 해석해 원하는 목적의 정보를 생산해 내는 과정을 포괄한다.

이 과정은 컴퓨터를 통한 대규모 연산 과정을 통해 진행된다. 왜 꼭 그래야만 할까?

유전자 해독기를 통해 생산된 raw data는 대규모의 이미지 파일들로, 한 사람의 게놈을 읽어내는데 1Tb(테라바이트)의 정보를 생산해 낸다. 이 이미지 파일을 처리해 생산된 한 사람의 DNA 문자는 30억 쌍에 달한다. Text 파일로 이 문자열을 저장하는데만 3Gb ( 기가 바이트)가 필요하다. 현재 유전자 해독 기술의 특성상 같은 부위를 평균 30배로 읽어내는데 이렇게만 해도 90G 여기에 각 DNA 염기를 읽어내는데 필요한 Quality score 등의 정보를 포함하면 270G로 불어난다.

270Gb 의 정보를 컴퓨터의 도움 없이 처리해 낼 수는 없다. 그래서 해독된 유전자 정보를 활용하기 위해서는 컴퓨터를 통한 정보 처리를 통하지 않을 수 없게 되는 것이다.

유전자 해석 과정은 여기에서 부터 시작한다. 여기서 부터는 필요한 목적에 따라 다양한 알고리즘과 분석 방법론을 기반으로 각각의 기술들이 발산한다. 암환자의 유전자 정보로 정밀진단을 하기 위해서는 체세포 변이를 찾아내는 알고리즘을 사용하고, 산전유전진단을 위해서는 산모의 유전자에서 태아의 유전자를 구분해 내는 알고리즘을 사용하고, 최근 이슈가 되고 있는 액체생검을 통한 암조기진단을 위해서는 암세포에서 근원한 변이를 찾아내는 알고리즘을 사용한다.

우리 3billion은 유전적 원인에 기반한 희귀질환을 검사할 수 있도록 생식세포 변이( Germ-line mutation)을 판별하고, 다양한 질병들의 유전 특성에 기반해 변이들이 질병을 유발할 것인지, 유발한다면 어느 정도 확률로 이런 가능성이 존재하는지 등을 정밀하게 계산해 낼 수 있는 알고리즘을 개발하고, 여기에는 딥러닝을 포함한 다양한 AI 기술들이 폭넓게 활용된다.

즉, 목적에 따라 유전자 해석에 필요한 기술들은 서로 다르다. 그래서, 어떤 목적을 가진 제품을 만드느냐에 따라서, 유전자 정보 기반 회사들은 서로 다른 기술을 고도화 시켜나가는 각자의 길을 걷게 된다.

3billion은 희귀 질환을 검사하는데 필요한 다양한 data analysis algorithms/methods, UI/UX 들을 개발하는데 역량을 집중하는데, 여기 활용되는 해석 기법들은 Grail 등의 암 조기 진단을 위한 회사나 Natera 등의 산전유전검사 제품을 만들어내는 회사들이 활용하는 해석 기법과 완전히 다르다.

이는 마치, '컴퓨터와 프로그래밍 랭귀지'라는 동일한 자원을 활용해 각 software 회사들이 서로 다른 software를 만든 것과 같다고 할 수 있다. Microsoft 는 운영체제 소프트웨어를, 구글은 검색 엔진 소프트웨어를, 오라클이 DB 소프트웨어를 만든 것 처럼.



유전자 산업의 '핵심 기술'

자, 그러면 유전자 산업의 핵심 기술은 무엇일까?  유전자를 읽어내는 유전자 해독 기술인가? 아니면 읽어낸 유전자 정보를 해석하는 기술인가?

둘 다 핵심 기술이다. 유전자 해독의 핵심 기술은 유전자 해독기를 만들어 내는 회사에 핵심 기술이 있다. 현재 지구상의 유전자 해독기 시장을 독점하고 있는 illumina 가 가장 경쟁력 있는 유전자 해독 핵심 기술을 가진 곳이라 할 수 있겠다. 그 외에 게놈 해독기를 개발, 사업화 하고 있는 Pacific biosciences,  Oxford nanopore 등이 게놈 해독 핵심 기술을 가지고 있는 회사들이라 할 수 있다.

유전자 정보 해석의 핵심 기술은 IT 회사들이 그랬듯, 각 목적에 맞는 software를 만드는 곳들에 핵심 기술이 분산되어 있고, 앞으로 이 분산이 가속화될 것으로 예상된다.  구글이 검색에선 야후, 라이코스, AOL 등 초기 경쟁자들을 물리치고 가장 독보적인 경쟁 우위를 점했고, 마이크로소프트가 윈도우를 기반으로 운영체제 소프트웨어를 독점했듯,  유전자 정보를 기반으로 다양한 문제를 해결하는 산업 분야들이 파생이 될 것이고, 각 영역에서 경쟁 우위를 가지는 회사들이 등장할 것이다.

여기서 한가지 강조하고 싶은 것은, 어느 한 도메인의 해석 기술이 좋다고 다른 영역의 문제를 푸는데 필요한 해석 기술이 좋다고 할 수 없다는 점이다. 구글의 검색 엔진은 검색에서 의미가 있지, 운영체제를 만드는데 큰 도움이 안 되듯, 유전자 해석 기술도 마찬가지. Myriad 의 유방암 위험도 검사를 위한 소프트웨어가 산전태아유전 검사를 하는데는 큰 의미가 없다. 마찬가지로 Natera의 산전태아유전 검사를 위한 소프트웨어는 Counsyl의 임신전 태아 유전병 위험도 검사에는 큰 도움이 안 된다.

물론, 구글이 Facebook처럼 SNS 를 만들고, Microsoft 가 구글처럼 검색엔진 Bing 을 만들 듯, 다른 회사의 제품들을 만들어 낼 수 있다. 소프트웨어라는 영역이 의례 그러하듯. 하지만, 이미 역사를 통해 우리는 잘 알고 있다. 그런 식으로 타회사의 소프트웨어를 따라 만들어 성공한 전례는 손에 꼽는다는 것을.  구글은 수많은 인재들을 영입해 수많은 소프트웨어 서비스를  출시했지만, 본업인 검색과 이메일 외에는 크롬을 제외하고 성공한 서비스라고 할 만한 것이 없다.  마이크로소프트 역시 수많은 소프트웨어를 만들어 냈지만, 운영체제와 오피스 제품군 이외엔 성공한 제품이 없다.

구글은 직접 만든 제품이 아니라, Youtube나 안드로이드 등 좋은 소프트웨어를 만든 회사들을 인수해 막대한 매출을 내는 회사로 키운 경우가 더 많은 듯 하다( 물론 talent acquisition 에 그친 경우가 훨씬 더 많긴 하다만). 마이크로소프트는 그 마저도 신통치 않았지만.

기본적으로 '인간 게놈 정보'를 바탕으로, 목적에 맞는 '유전자 해석' 소프트웨어를 주력으로 하는 유전자 정보 산업군의 회사들도 IT 기업들과 같은 전례를 따르며 시장이 성장해 나갈 것이라 생각한다.

다만 한가지 변수가 더 있는데, 그게 바로 Data.


또하나의 핵심 기술, Data 

인간 최고수 바둑 기사들을 무참히 짓밟으며 큰 이슈가 된 AI 기술이 엄청난 주목을 받고 있다. 딥러닝 기술의 발전을 등에 엎은 구글 딥마인드의 알파고가 엄청난  '바둑 실력'을 쌓아, 인간 최고수들을 압도했기 때문이다. 헌데 알파고는 어떻게 '바둑 실력'을 습득한 것일까?

알파고는 어떻게 인간 최고수 이세돌을 능가하는 바둑 실력을 학습할 수 있었을까?

바로, 인간 최고수들의 바둑 대결을 통해 얻어진 '바둑 대결 기보 Data' 를 통해 바둑 기술의 습득이 가능했던 것이다.  딥마인드 팀이 가진 바둑 대결 기보 Data 에 인간 최고수들 간의 대결 Data는 빠져 있었다면 어땠을까? 절대 인간 최고수들을 능가하는 수준의 실력을 쌓지 못했을 것이다.

딥러닝을 포함한 AI 에서 알고리즘도 핵심 기술이지만, 그 보다 더 중요한, 경쟁력을 가르는 핵심은 Data라고 할 수 있다.  특정 문제를 풀기위한 양질의 Data를 누가 더 많이 가지고 있느냐에 따라 AI 성능이 결정된다.

'Garbage in, Garbage out' , 아무리 좋은 성능의 AI 알고리즘을 개발했더라도, AI가 학습할 Data의 질과 양이 받쳐주지 못하면, 그 AI의 수준은 절대 경쟁력을 가질 만한 성능을 내지 못한다.

'유전 정보 해석 소프트웨어' 기술에서도 같은 상황이 펼쳐지고 있다. 유전 정보 해석 소프트웨어들 자체가 빅데이터에 기반한 다양한 방법론 , AI 알고리즘 기반으로 하고 있기에, 자연히 양질의 Data 를 기반으로한 소프트웨어가 경쟁력 있는 성능을 확보할 수 있다.

액체 생검 기반 '암 조기 진단 키트' 개발을 목표로 하는 Grail, Guardant health, Freenome 등의 회사가 왜 수천억~조단위 투자를 받을까? 투자금을 기반으로 회사를 성장시킬 Plan 이 있어야 하는데, 그 돈을 어디에 쓸 목적으로 막대한 투자를 받았을까?

바로 Data 확보다. 암 조기 진단 kit를 개발하기 위해 수십만~수백만명의 게놈 Data를 확보해 암 조기 진단 소프트웨어의 성능을 압도적으로 높이기 위해 엄청난 투자를 받은 것이다.  압도적인 숫자의 양질의 데이터를 확보하고 나면, Data가 진입장벽이 되어 시장을 선도할 수 있게 된다.

그런데, 돈만 있으면 양질의 데이터를 확보할 수 있을까? 반은 맞고 반은 틀리다고 본다. 결국, 의미 있는 제품을 만들어, 자연스럽게 고객숫자를 늘려갈 수 있는 곳이 가장 의미 있는 속도로 의미 있는 숫자의 Data를 확보할 수 있을거라고 본다.

이를 위해서는 결국 고객의 선택을 받아야 하는데, 여기에는 제품의 품질 외에도, 회사가 추구하는 목적과 가치 등 제품 이외의 요소들도 매우 중요하게 작용하지 않을까 예상한다. 돈벌기 위해 어떤 형태의 Data 사용이든 불사하려고 하는 곳은 아무리 많은 자금을 바탕으로 하더라도 결국 유전자 정보 산업의 Data 경쟁에서 패퇴할 것이라 예상한다.  좋은 제품을 합리적인 가격에 제공하면서, 궁극적으로 질병 치료 등 선한 목적을 추구하는 회사가 유전자 정보 산업의 궁극적으로 가장 큰 경쟁력인 Data 확보 경쟁의 승자가 되지 않을까 예상해 본다.


요약 

많은 이야기를 했는데, 간단히 요약하면, 유전자 정보 산업에는 '유전자 해독'을 핵심 기술로 하는 회사도 있고, '유전자 해석'을 핵심 기술로 하는 회사도 있다. 유전자 해석을 하는 회사들은 각기 목적하는 바에 해당하는 소프트웨어를 고도화해 나가면서 기술이 차별화 되어 나간다. 유전자 해석을 핵심 기술로 하면서 같은 목적( 예, 액체 생검을 통한 암 조기진단)을 가진 회사들은 어느 곳이 양질의 데이터를 더 많이 가지고 있는가로 궁극적으로는 제품의 차별화, 경쟁력의 차별화가 이루어질 것이다.