의학/의료 - 인공지능(AI)이 '더 많이, 잘' 찾는 것이 항상 좋은 것일까 ?

in kr •  last year  (edited)

최근의 암호화폐를 바라보고 있으면 종류에 관계없이 다 막 오르는 것 같습니다. 이 랠리가 언제 끝날지는 모르지만 많은 사람들이 예상하기로 언젠가는 옥석이 가려질 것이라고 다들 믿고 있을 것입니다.

의학에 큰 바람을 몰고있는 인공지능 또한 비슷한 위치라고 생각합니다. 최근 학회를 가면 '인공지능', '딥러닝' 이란 이름이 붙는 주제들이 큰 인기를 몰고 있습니다만, 한번쯤은 짚어보고 넘어가야할 이야기를 꺼내보려고 합니다.

인공지능(AI)이 '더 많이, 잘' 찾는 것이 항상 좋은 것일까 ?

[사례1]
Lead time bias - 우리나라 말로 하면 '시간단축삐둘림'이라고 합니다. 쉽게 이야기 하면 이렇습니다.

"어떤 병이 있는데 그 병을 발견하는 진단기술이 새롭게 발견되었고, 그 진단기술로 인해 그 병을 3~4년 일찍 발견 할 수 있는 조기 진단이 가능해졌다. 그래서 그 병의 생존기간이 늘어났다."

만약 그런데 그 병을 조기 발견하기 전에도 이미 생존률이 충분히 좋았던 병이라면, 그리고 알고보니 실제 생존기간이 늘어단 것이 아니라, 단지 조기진단된 2~3년 만큼 시간만큼 늘어났기 때문이라면. 이 진단의 의미는 어떻게 파악해야 할까요.

[사례2]
참고 : https://www.medscape.com/viewarticle/883013

US Preventive Services Task Force(USPSTF)에 따르면 유전자 등의 몇몇 조건을 제외하고, '무증상인 경우 난소암의 screening 검사는 권장되지 않는다' 라고 합니다. 초음파라는 아주 간단하고 강력한 도구가 있음에도요.

그 이유의 하나는, 무증상인 경우 초음파로 검사했을 때 관찰되는 mass(종양, 혹)에 대한 추가 검사가 침습적(찔러야 한다던가 절제를 해야한다던가)이라는 점에서 득보다 해가 더 많은 것이 한 이유가 될 수 있습니다. (물론 우리나라 처럼, 검사 하나하나의 단가가 낮고, 병을 놓쳤을 때 생기는 문제가 더 큰 경우에는 이런 가이드라인은 무시되어 버릴 수도 있습니다만)

 

본론으로 들어가서, 일반적으로 진단 검사는 다음과 같이 ROC 커브를 그릴 수 있습니다. 이해 못하실 수 있는 분들을 위해 아래에 부연설명이 있으니 대충보고 넘어가셔도 됩니다.

단일 검사에서 진단 기준을 B->A로 변경한다고 예를 들어봅니다. 이 경우 민감도라는 것이 늘어나게 되는데, 민감도(sensitivity;질병이 있는 사람 중에 검사가 양성으로 나올 확률)를 높이면 필연적으로 정상인 중에 '질병이 있는 것으로' 잘 못 나오는 사람이 늘어납니다. (False positive)

통계를 잘 모르는 분들은 어려운 이야기 입니다만, 아래처럼 그려보면 이해하시기 쉬울 것입니다. 어떤 검사를 했더니 정상인과 환자의 분포가 아래처럼 겹치는 부분이 생겨버립니다. 기준을 낮춤으로서 더 많은 환자를 걸러내고자 한다면(기준선이 좌측으로 이동), 필연적으로 더 많은 정상인들이 그 안에 포함될 수 있다는 이야기가 됩니다.


사실 유전자 검사 같은 특별한 검사를 제외하고는 100% 진단이라는 검사는 거의 없다고 봐도 됩니다. 이러한 이유로 일반적으로 '검진'용 검사는 어떻게든 '환자일 수 있는 가능성을 놓치면 안되는' 검사이기 때문에 Sensitivity라는 것을 높이게 되고, '확진'용 검사는 어떻게든 '정상인을 환자로 인식하면 안되는' 검사이기 때문에 Specificity를 높이는 쪽으로 가게 되어있습니다.
어떤 병을 진단할 때 여러 검사를 할 수 밖에 없는 이유는 다 이러한 이유 때문입니다. 여러 필터를 통해 거르고 거른다고 보면 됩니다.

반면에 어떠한 검사들은 기존의 ROC를 더 좌측으로 올리게 되는데요, 예를 들면 동일한 Sensitivity에서 더 높은 Specificity를 갖는 - 다시 말해 더 좋은 검사라는 이야기 입니다. 같은 '환자'를 찾아낼 수 있으면서 '정상'은 정상대로 더 잘 분류해준다고 해야할까요.

 

정리해보면 이렇습니다.

인공지능이 '더 많이(Quantity)' 찾는게 항상 의미가 있지는 않습니다. 작은것 하나 더 찾아서 Sensitivity를 높였더니, 정상인조차 환자로 분류되어 버리는 일이 생긴다면 그것이 항상 좋다고만은 볼 수 없을 것입니다.
사례2 와 같이, 우리는 컴퓨터가 놓치지 않은 탓에 불필요하고 힘든 검사들이 진행 될 수 있을 것입니다.

물론 '검진용' 검사들에서는 큰 의미를 가질 수 있겠지요, 흉부 X-ray든지 우리가 흔히 조기검진, 스크리닝(screening)이라는 이름으로 붙어있는 검사들입니다.

하지만 '잘(Quality;뭐라고 딱 정의하기는 어렵습니다만)' 찾는 것은 매우 중요할 것 같습니다. 이 경우 한 질병의 진단의 흐름 자체를 바꿀 수 있게 될테니까요.

AI, 빅데이터를 통한 다양한 연구가 나오는 시점에서, 단순히 의사보다 '많이' 찾았다, '잘' 찾았다..그래서 역시 컴퓨터가 뛰어나다! 라는 볼 것이 아니라, 그래서 그 병의 진단과 치료에 어떠한 영향을 주었는지까지, 예를 들면 정상인 사람들을 괜히 불필요한 검사를 더 받게 만드는 것은 아닌지와 같은 요소들도 함께 바라봤을 때 더 의미가 있지 않을까 생각해봅니다.

의사들이 직접 쓰는 최초의 STEEM 의학 매거진

Authors get paid when people like you upvote their post.
If you enjoyed what you read here, create your account today and start earning FREE STEEM!
Sort Order:  

전문적인 내용이지만 좋은정보 감사합니다

·

통계적인 내용을 바탕으로 이야기를 구성하려다보니 쉽게 쓰려고 노력했는데도 여전히 어려운 글이였나봅니다 :(