[기고] 의과학-ICT 융합 기술과 의료 빅데이터 이슈

의료 빅데이터 관리와 활용 방안

2022-03-28     CCTV뉴스 편집부

[글=박세환 Ph.D.]
(주)기술법인 엔펌 전문위원(Chief Consultant) | 한국산업기술진흥협회-ReSEAT프로그램 전문위원 | 한국과학 기술정보연구원 KOSEN전문가 | 한국산업 기술평가 관리원 CS-서포터즈, 사회적가치추진위원 | 한국CCTV연구소 영상보안CCTV산업발전연구회장 | 한국생산기술연구원 클린팩토리 진단전문가, 국제환경규제모니터링전문가 | 과학기술정보통신부 연구자권익보호위원회 위원 | 한국철도공사연구원 철도차량부품개발사업 6분과위원장

 

컴퓨터 과학을 이용한 의료 빅데이터 분석 기법 등이 의과학(의료 정보학·바이오정보학·바이오통계 등) 분야에서 ICT와 융합되어 만성 질환 및 난치성 질환과 유전체학(Genomics) 등에 적용이 빠르게 확산되고 있다. 이를 통해 보건 의료와 생명 과학 산업 활성화에 크게 기여하고 있다.

이들 기술 융합은 환자, 의료진 및 바이오 제약 회사 간에 보다 밀접한 상호 작용 관계로 이어지면서 시너지를 만들어 내고 있다. 특히 의료 빅데이터 분석 기법은 이러한 상관관계를 더욱 향상시키는 데 일조하고 있다.

보건 의료 서비스 제공자와 의약품 제조사들은 개인뿐만이 아니라 특정 만성 질환 및 난치성 질환자로부터 각종 질병 예방 의학 등을 탐색하고 분석하는 능력을 제공하고 있기 때문이다. 아울러 컴퓨팅 기능의 비약적인 발전에 힘입어 유전체 분석 기술료가 건당 수백만 달러에서 수천 달러로 낮아지고 있어 인구 기반 보건 의료에서 맞춤형 의학으로 빠르게 변화하고 있다.

본고에서는 최근 공중 보건 및 의과학 분야에서 많이 활용되고 있는 의료 빅데이터 분석 기술과 더 나아가 의료 빅데이터 분석 기법에 대한 해법을 제공하고 있는 유전자 서열 분석 기술, 다양한 -omics 기업 및 학계와 협력하여 유전 코드를 기반으로 맞춤형 약품을 개발하는 데 주력하고 있는 신약 개발 기술 등 의과학-ICT 기술 융합 이슈에 대해 설명한다.

이와 함께 의과학-ICT 융합 기술의 핵심으로 주목받고 있는 의료 빅데이터 이용 현황을 살펴본다. 끝으로 매우 이질적인 특성을 가진 의료 정보의 빅데이터 연구, Dropbox 유형의 원스톱 의료 정보 서비스(SaaS), 의료 데이터의 안전과 보안 문제 해결을 위한 암호화 알고리즘 및 클라우드 컴퓨팅 기술 등에 대한 시사점을 제시한다.

 

의과학-ICT 융합 주요 이슈

1. 의료 빅데이터 분석 기술

의료 빅데이터 분석 기법은 연구자가 안전한 방식으로 대량의 개인 의료 데이터를 분석하는 데 필요한 데이터 저장장치와 대용량 서버, 정보 처리 등의 기능을 갖추고 있어야 한다. 대부분의 빅데이터 급증(surge)은 정량화되지 않은 정보들이기 때문에 기존의 DBMS(Data Base Management System)를 통해 분석하기에는 어려움이 있다. 따라서 의료 빅데이터의 예측 기능이 최근 공중 보건 및 의과학 분야에서 활용되고 있다.

인터넷을 통해 확보한 방대하고 정량화되지 않은 무작위 수집 데이터로부터 얻은 지식을 가공하는 인공지능(AI) 기반의 컴퓨터 도구들이 개발되어 바이오 의학 및 생명 과학 등 다양한 분야에 적용되고 있다. 급속히 발전하고 있는 AI 기술에는 자연언어처리(NLP: Natural-Langue Processing), 패턴 인식 및 기계 학습(Machine learning) 등이 있다. 이러한 사례로 공간적인 지도를 바탕으로 방대한 양의 의료 정보를 분석하여 진단을 결정하는 빅데이터 분석 기법인 Goog le Trends(GT) 질병 추적 알고리즘이 있다.

Google Trends 주요 특징

• 특정 지역에서 응급실을 방문하는 환자 수가 증가하기 전에 플루(flu) 증세와 플루 치료와 같은 구글 탐색 요구들의 급격한 증가 추세를 빅데이터 분석 기법을 통해 검증.

• 질병 유행 지역에서 바이오 의학 분야의 빅데이터 분석을 응용하여 질병의 추적과 모니터링을 가능하게 하고 있음

 

2. 유전자 서열 분석 기술

다양한 의과학 기술력이 ICT와 융합되면서 새로운 서열 분석(제3세대 및 제4세대 DNA 서열 분석 등) 기술들이 유전체 및 전사체(轉寫體, transcriptomes) 분야에 빠르게 확산되고 있다. 전사체는 발현된 모든 RNA의 총합으로, 주로 마이크로 어레이를 이용하여 유전자들의 기능을 총체적 네트워크로 이해할 수 있도록 기본 자료와 분석 방법을 제공하고 있다. 반도체와 나노포어 시퀀싱(nano-pore sequencing) 기술에 기반을 둔 이들 신기술은 대규모의 유전자 서열 분석 프로젝트 개발을 통해 의료 빅데이터 분석 기법에 대한 해법을 제공하고 있다.

특히 제4세대 염기서열 분석 기법(4th generation sequencing technique)인 나노포어 시퀀싱 기술이 매우 유망한 단분자 검출 방법을 이용하여 다양한 분석 물질의 식별과 정량화에 이용되고 있다. 이러한 연구를 통해 인간 유전체와 같은 어려운 문제를 해결해가고 있다. 바이오 의학에서의 이러한 빅 프로젝트는 신약 개발 및 진단 검사 등을 가속화시키고 있다. 이에 연구자들은 대량의 개인 의료 빅데이터를 취급하는 데 있어 무엇보다 개인정보 보호에 주력할 의무가 있다.

아울러 차세대 DNA 서열 분석 기술을 활용하여 다양한 -omics(유전체학(Genomics), 전사체학(Transcriptomics) 등) 데이터 세대로부터 임상가와 연구자들에 연구 결과를 제공할 필요가 있다. 이에 대한 대표적인 연구 사례로는 2016년 단계별 솔루션을 제시하여 Nature지에 게재된 ‘1000 Genome Project Consortium and 1000 Genomes Project data(이하 1000 Genome Project)’와 이를 기반으로 2017년 Mahe r와 ENCODE P ro ject Conso r t ium이 제시한 ‘ENCODE(Encyclopedia of DNA Elements)’가 있다. 이들 연구 결과를 간단히 요약하면 다음과 같다.

1000 Genome Project

• 인간의 유전자 지도로 만드는 작업을 특성화하여 -proteinꠓcoding DNA 외부에 있는 구역에 초점을 맞춤

• 인간의 유전 변이성의 90%는 단백질-코딩 유전자들 갖고 있지 않은 구역 내에서 일어나는 것을 규명함으로써 유전체 조직에 대해 새로운 식견을 제공

• 약 150형의 세포에서 1600건의 임상 실험을 통해 생성된 초대용량 의료 빅데이터 관련 연구결과가 32개국에서 발간되었으며, 차세대 바이오 의학 연구에 기여할 수 있을 것으로 평가받음

ENCODE Project

• 2008년부터 전 세계 수천 명(1기(one phase)에 1000개 이상)의 유전체를 서열 분석하여 유전 변이에 대해 가장 큰 데이터세트로 자리매김함

• 확보한 의료 데이터는 표현 및 유전형 데이터와 결합하여 바이오 의학 분야에서 새로운 빅데이터를 생성

• 생성한 의료 빅데이터는 인간 유전체의 약 80%에 대한 바이오 의학 기능을 조명하고 있는 것으로 평가받음

이들 연구 결과는 차세대 DNA 서열 분석 기술을 활용한 다양한 -omics 기술 발전에 크게 기여하고 있는 것으로 평가받고 있다. 이러한 연구 프로젝트를 통해 도출된 정보들은 유전학계와 생물학계에서 가장 많이 활용하고 있다. 아울러 유전체에 대한 전문 지식을 응용하여 질병 표현형들을 이해함으로써 신약 개발에 적용하고 있다.

 

3. 신약 개발 기술

제약 산업은 다양한 -omics 기업 및 학계와 협력하여 환자의 유전적 코드에 기초한 맞춤형 약품을 개발하는 데 주력하고 있다. 주요 사례로 Vertex Pharmaceuticals가 있다. 이는 낭포성섬유종(CF: Cystic Fibrosis) 프로젝트에서 200명 이상의 학자와 공동 연구를 통해 개발된 것이다. 이 연구에서는 소프트웨어를 이용하여 50만 개 이상의 화합물을 스크리닝 하는 것을 목표로 하였다. 이 프로젝트는 실제로 수천 개의 화합물 조합을 스크리닝하여 해당 환자의 4%에 영향을 주는 특이한 DNA 돌연변이를 가진 집단의 CF 환자 치료에 도움이 되는 신약 개발을 견인하고 있다.

이러한 표적 치료는 맞춤형 의학 프로그램을 통해 복잡한 질병(희귀 질환 및 암 등)에 대한 새로운 치료법을 제시할 수 있을 것으로 기대하고 있다. 이 경우에도 의료 빅데이터 분석 도구는 매우 중요한 역할을 제공하고 있다. 특히 암 환자를 스크리닝하는 알고리즘을 이용한 맞춤형 컴퓨터 지원 진단학(CAD: Computer-Aided Diagnostics)은 환자 진료의 질을 향상시키면서 시간 절약 사례로 평가받고 있다.

 

의료 빅데이터 이용 현황

컴퓨팅 머신과 인터넷망을 통해 질병을 관리하는 도구들이 급속히 확산되고 있다. 이러한 사례로서 데이터 저장장치는 맞춤형 의학 기본 중 하나인 환자의 질병 유형에 맞는 약품을 찾아낼 수 있도록 함으로써 의료 서비스를 지원하고 있다. 의과학-ICT 융합 관련 글로벌 기술 시장을 주도하고 있는 메이저 기업들의 이용 주요 사례를 간단히 요약하면 [표 1]과 같다. 이러한 사례들은 DB에서 제공하는 정보량을 의료 전문가와 환자의 사용이 증가하면서 신약 개발과 질병 치료를 용이하게 하여 바이오 의학에 크게 기여하고 있다.

 

의료 빅데이터 관리 이슈

의료 정보는 생물학적 및 의학적 데이터를 취급하기 때문에 다른 빅데이터 연구에 비해 supply chain(생성-획득-저장ꠓ이동-확보-이용-폐기)이 매우 이질적이다. 즉, 데이터의 저장-이동-확보 비용보다 전 단계인 생성-획득 비용이 더 적게 든다. 이에 미국의 국립바이오기술정보센터(NCBI: National Cencter for Biotechnology Information)에서는 1988년 이후 바이오 의학 분야에서 주도적으로 의료 빅데이터의 용이한 생성-획득에 주력하고 있다.

아직까지 의료 빅데이터의 저장-이동-확보와 관련된 저렴하고 안전한 해결책을 제시하는 기업은 많지 않다. 이는 실험실과 연구소의 한계를 벗어나 미래 바이오 의학 연구에 몇 가지 어려움을 시사하고 있다. 의료 빅데이터를 다른 곳으로 이동시킬 때는 일반적으로 하드디스크를 이용하기 때문에 데이터가 손실되지 않도록 데이터 압축 소프트웨어가 필요하다. 데이터 저장-이동-확보를 위한 Globus Online은 데이터 과학자들을 위한 Dropbox 유형의 원스톱 서비스로 SaaS(Software as a Service)를 제공하고 있다.

최근에는 의료 빅데이터를 다른 위치로 옮기면서 동시에 데이터 처리가 가능한 클라우드 컴퓨팅 기반 해결 방법이 개발되면서 데이터 이전과 잠재(latency) 과정을 실행하는 도구로 확산되고 있다. 이는 저장공간이 확보되지 않은 곳에서 생성되는 의료 빅데이터를 임의의 장소로 안전하게 이동할 필요가 있음을 시사하고 있다. 각 개인으로부터 확보한 의료 데이터의 안전과 보안 문제를 해결하는 것도 매우 중요한 이슈다. 이를 해결하기 위해서는 금융 보안에서 이용하는 암호화 알고리즘(encryption algorithm)을 갖춘 보안 시스템이 필요하다.

아울러 연구 참가자나 환자가 공개적으로 연구자와 함께 환자에 대해 생성한 데이터를 공유할 수 있는 동의 양식을 생성하는 것이 필요하다. 웹 기초 보건 연구에서 동의 정보에 대한 콘텍스트는 이러한 역동적인 연구를 용이하게 할 수 있으며, 동시에 공공의 신뢰를 유지할 수 있는 기반을 제공하고 있다. 이는 의료 빅데이터의 보안 기술에서 클라우드 컴퓨팅 기술의 적용이 필요함을 시사하고 있다. 이에 대한 주요 사례로는 Knome이 개발한 ‘knoSYS100’ 하드웨어를 이용한 의료 빅데이터 보안 강화가 있다.

 

의료 빅데이터 보호를 위한 제도적 장치 필요

의과학 분야에서 의료 빅데이터 분석 기법은 차세대 의료 서비스를 크게 향상시켜 맞춤형 의학 프로그램으로 발전하고 있다. 이를 기반으로 임상 데이터 및 다양한 -omics 데이터의 관리 및 개인 의료 정보 보안 등에 대한 통합 관리 시스템을 구축하는 데 주력할 필요가 있다. 이를 통해 만성 질환 및 난치성 질환자 관리의 질을 향상시키고, 나아가 의료비 절감을 구현할 수 있을 것이다.

또한 연구자들이 경험하는 의료 빅데이터 분석 기법과 데이터 중심 모델링에 대한 인프라를 제공할 수도 있을 것이다. 이를 위해 의료 빅데이터(임상 및 유전 데이터 등)의 supply chain에 개인 의료 정보 보안 등과 같은 문제를 해결할 수 있는 법적·제도적 기반이 필요하다.

바이오 의학 연구는 다양한 임상 정보와의 결합을 활용하여 검증이 이루어지기 때문에 성공 여부는 이러한 기술력으로 생성되는 초대용량 의료 데이터세트를 어떻게 해석하느냐에 달렸다고 할 수 있다. 글로벌 ICT를 주도하고 있는 메이저 기업들(마이크로소프트·아마존·애플·구글 등)은 의료 빅데이터를 다루는 선두 주자들이다.

유전체학 기술과 보건 정보에 의해 생성된 의료 빅데이터를 효과적으로 분석하고 공유하기 위해서는 동일 형태의 측정 가능한 구조의 분석력을 확보해야 한다. 특히 이러한 바이오 의학은 미래 맞춤형 의학 프로그램으로 주목받고 있는 의료 정보 과학에 적응할 필요가 있다. 맞춤형 의학과 컴퓨터 지원 진단학이 만성 질환 및 난치성 질환을 치료하는 데 직접적인 효과를 나타낼 수 있다는 것을 증명하기 위해서는 보다 심도 있는 연구가 진행되어야 할 것이다.