의학/의료 - 인공지능(AI)이 '더 많이, 잘' 찾는 것이 항상 좋은 것일까 ?

junn (61)in #kr • 6 years ago (edited)

최근의 암호화폐를 바라보고 있으면 종류에 관계없이 다 막 오르는 것 같습니다. 이 랠리가 언제 끝날지는 모르지만 많은 사람들이 예상하기로 언젠가는 옥석이 가려질 것이라고 다들 믿고 있을 것입니다.

의학에 큰 바람을 몰고있는 인공지능 또한 비슷한 위치라고 생각합니다. 최근 학회를 가면 '인공지능', '딥러닝' 이란 이름이 붙는 주제들이 큰 인기를 몰고 있습니다만, 한번쯤은 짚어보고 넘어가야할 이야기를 꺼내보려고 합니다.

인공지능(AI)이 '더 많이, 잘' 찾는 것이 항상 좋은 것일까 ?

[사례1]
Lead time bias - 우리나라 말로 하면 '시간단축삐둘림'이라고 합니다. 쉽게 이야기 하면 이렇습니다.

"어떤 병이 있는데 그 병을 발견하는 진단기술이 새롭게 발견되었고, 그 진단기술로 인해 그 병을 3~4년 일찍 발견 할 수 있는 조기 진단이 가능해졌다. 그래서 그 병의 생존기간이 늘어났다."

만약 그런데 그 병을 조기 발견하기 전에도 이미 생존률이 충분히 좋았던 병이라면, 그리고 알고보니 실제 생존기간이 늘어단 것이 아니라, 단지 조기진단된 2~3년 만큼 시간만큼 늘어났기 때문이라면. 이 진단의 의미는 어떻게 파악해야 할까요.

[사례2]
참고 : https://www.medscape.com/viewarticle/883013

US Preventive Services Task Force(USPSTF)에 따르면 유전자 등의 몇몇 조건을 제외하고, '무증상인 경우 난소암의 screening 검사는 권장되지 않는다' 라고 합니다. 초음파라는 아주 간단하고 강력한 도구가 있음에도요.

그 이유의 하나는, 무증상인 경우 초음파로 검사했을 때 관찰되는 mass(종양, 혹)에 대한 추가 검사가 침습적(찔러야 한다던가 절제를 해야한다던가)이라는 점에서 득보다 해가 더 많은 것이 한 이유가 될 수 있습니다. (물론 우리나라 처럼, 검사 하나하나의 단가가 낮고, 병을 놓쳤을 때 생기는 문제가 더 큰 경우에는 이런 가이드라인은 무시되어 버릴 수도 있습니다만)

본론으로 들어가서, 일반적으로 진단 검사는 다음과 같이 ROC 커브를 그릴 수 있습니다. 이해 못하실 수 있는 분들을 위해 아래에 부연설명이 있으니 대충보고 넘어가셔도 됩니다.

단일 검사에서 진단 기준을 B->A로 변경한다고 예를 들어봅니다. 이 경우 민감도라는 것이 늘어나게 되는데, 민감도(sensitivity;질병이 있는 사람 중에 검사가 양성으로 나올 확률)를 높이면 필연적으로 정상인 중에 '질병이 있는 것으로' 잘 못 나오는 사람이 늘어납니다. (False positive)

통계를 잘 모르는 분들은 어려운 이야기 입니다만, 아래처럼 그려보면 이해하시기 쉬울 것입니다. 어떤 검사를 했더니 정상인과 환자의 분포가 아래처럼 겹치는 부분이 생겨버립니다. 기준을 낮춤으로서 더 많은 환자를 걸러내고자 한다면(기준선이 좌측으로 이동), 필연적으로 더 많은 정상인들이 그 안에 포함될 수 있다는 이야기가 됩니다.

사실 유전자 검사 같은 특별한 검사를 제외하고는 100% 진단이라는 검사는 거의 없다고 봐도 됩니다. 이러한 이유로 일반적으로 '검진'용 검사는 어떻게든 '환자일 수 있는 가능성을 놓치면 안되는' 검사이기 때문에 Sensitivity라는 것을 높이게 되고, '확진'용 검사는 어떻게든 '정상인을 환자로 인식하면 안되는' 검사이기 때문에 Specificity를 높이는 쪽으로 가게 되어있습니다.
어떤 병을 진단할 때 여러 검사를 할 수 밖에 없는 이유는 다 이러한 이유 때문입니다. 여러 필터를 통해 거르고 거른다고 보면 됩니다.

반면에 어떠한 검사들은 기존의 ROC를 더 좌측으로 올리게 되는데요, 예를 들면 동일한 Sensitivity에서 더 높은 Specificity를 갖는 - 다시 말해 더 좋은 검사라는 이야기 입니다. 같은 '환자'를 찾아낼 수 있으면서 '정상'은 정상대로 더 잘 분류해준다고 해야할까요.

정리해보면 이렇습니다.

인공지능이 '더 많이(Quantity)' 찾는게 항상 의미가 있지는 않습니다. 작은것 하나 더 찾아서 Sensitivity를 높였더니, 정상인조차 환자로 분류되어 버리는 일이 생긴다면 그것이 항상 좋다고만은 볼 수 없을 것입니다.
사례2 와 같이, 우리는 컴퓨터가 놓치지 않은 탓에 불필요하고 힘든 검사들이 진행 될 수 있을 것입니다.

물론 '검진용' 검사들에서는 큰 의미를 가질 수 있겠지요, 흉부 X-ray든지 우리가 흔히 조기검진, 스크리닝(screening)이라는 이름으로 붙어있는 검사들입니다.

하지만 '잘(Quality;뭐라고 딱 정의하기는 어렵습니다만)' 찾는 것은 매우 중요할 것 같습니다. 이 경우 한 질병의 진단의 흐름 자체를 바꿀 수 있게 될테니까요.

AI, 빅데이터를 통한 다양한 연구가 나오는 시점에서, 단순히 의사보다 '많이' 찾았다, '잘' 찾았다..그래서 역시 컴퓨터가 뛰어나다! 라는 볼 것이 아니라, 그래서 그 병의 진단과 치료에 어떠한 영향을 주었는지까지, 예를 들면 정상인 사람들을 괜히 불필요한 검사를 더 받게 만드는 것은 아닌지와 같은 요소들도 함께 바라봤을 때 더 의미가 있지 않을까 생각해봅니다.

의사들이 직접 쓰는 최초의 STEEM 의학 매거진