빅데이타에 대한 장님과 같은 신뢰는 그만두어야 한다

in #kr6 years ago

https://www.ted.com/talks/cathy_o_neil_the_era_of_blind_faith_in_big_data_must_end

"빅데이타에 대한 무차별적 신뢰는 그만두어야 한다."

Weapons of Math Destruction의 저자인 캐시 오닐이 태드강연에 나와서 한 이야기입니다.

저자는 하버드대학에서 수학박사학위를 받고, 대학교수로 재임하다, 가장 큰 헷지펀드와 인터넷 데이타 마켓팅회사에서 데이타 사이언티스트로 일하던 중 빅데이타와 AI 마켓팅 뒤에 가려진 불편한 진실들을 경험하면서 이에 대해 문제제기를 하고 있습니다.

한글 자막이 없어서, 강연 내용을 대략 요약해보았습니다.

=====

알고리듬은 어느곳에나 있고, 여러분들을 승리자와 루저들로 정렬시키고 구분짓는다.
알고리듬을 만들기 위해서는 두가지가 필요하다: 데이타 (과거에 일어난 일) 와 성공의 정의(definition of success).

무엇을 성공이라고 정의하는가?
무엇을 성공이라고 정의하는 것은 결국 하나의 의견(opinion)이다.
알고리듬은 코드에 심어진 의견이다(Algorithms are opinions embedded in code).

여러분은 알고리듬이 객관적이고 과학적이라고 생각하는가?
만일 그렇다고 생각한다면 여러분은 마켓팅적인 트릭에 걸려든 것이다.
수학은 믿을만한 것이라 생각하는 반면, 정작 본인은 너무 어려워서 수학을 두려워하는 여러분의 마음을 이용해
수학모델을 이용하는 알고리듬은 뭔가 완벽한 것이라 믿게 만드는 것이다.
빅데이타에 대한 무제한적 신뢰를 하는 것 또한 마찬가지이다.

하지만 알고리듬이 이루려는 "성공"의 정의는 수학적으로 주어지는 것이 아니다.
이것을 이용해 뭔가 이루려고 하는 사람들이 부여한 의견에 불과하다.
그리고 이렇게 정의된 "성공"에 의해서 수집 분석되는 데이타의 선별에도 다시 의견이 들어가고
이렇게 수집된 데이타에 의해 알고리듬의 모델의 정당성은 다시 강화되고, 이 강화된 의견에 의해
데이타는 다시 이 의견에 맞게 수집된다. 모델과 데이타간의 feedback loop이 형성된다(data laundering).

미국 뉴욕시에서 시행된 알고리듬에 의한 고등학교 교사 해고 프로그램의 과정을 보면 이러한 알고리듬의 모델이 얼마나 불투명하고 하나의 편견에 지나지 않음을 쉽게 확인할 수 있다.

만일 머신러닝 알고리듬을 사용해 AI에게 평가할 패턴을 스스로 찾게 한다면 더 공평해질 수 있을까?

이렇게 해도 어떤 교사가 "휼륭한 교사"인가하는 것은 결국 AI가 판단할 수 없다. 모델을 설계하는 사람의 의견이 들어갈 수 밖에 없다.

무엇을 해야되나?

첫째, 데이타 integrity를 체크해야 된다.
둘때, 성공(sucess)에 대한 정의를 살펴보고, 그것을 감사해야 된다.
셋째, 데이타의 정확도에 따른 사회적 고려가 필요하다. 잘못된 데이타로 인해 입게될 사회적 피해에 대한 고려.
마지막으로, 알고리듬의 장기적 효과를 고려해야 된다. 특히 위험에 빠질 feedback loop에 대해서는 말이다.

두가지 메시지가 더 있다.
데이타 사이언디티스들에게:

우리는 진실의 중재인이 되어서는 안된다. 우리는 더 큰 사회에서 일어나게 되는 윤리적 논의의 번역자가 되어야 한다.
(we should not be the arbiters of truth. We should be translators of ethical discussions that happen in larger society.)

일반인들에게:
이것은 수학 테스트가 아니다. 정치적 투쟁이다. 우리는 알고리듬적인 권력자들에게 accountability를 요구해야 한다.
(this is not a math test. This is a political fight. We need to demand accountability for our algorithmic overlords.)

빅데이타에 대한 장님과 같은 신뢰는 이제 끝내야 한다.

https://www.ted.com/talks/cathy_o_neil_the_era_of_blind_faith_in_big_data_must_end

======

블록체인 역시 수학적 모델과 알고리듬을 이용하기 때문에 같은 문제의식의 연장선에서 바라볼 수도 있을 것 같습니다. 하지만, 수학적 모델과 알고리듬이 전부 공개되어서 그 투명성이 보장된다는 점과, 축적되는 데이타에 대한 보다 평등한 접근권이 보장된다는 점에서 프라이빗한 빅데이타 소유구조와는 대비됩니다.

Sort:  

그렇군요
다 이해가 되는건 아니지만.
좋은 하루 되세요

Google 검색의 핵심인 pagerank 알고리즘도 객관적인 것 같지만, 그 파라미터를 정하는 데에는 사람의 의견이 들어가죠.
IQ test 를 처음 만들었을 때, 여러 가치 (인종차별적인 요소도 포함) 에 의해서 임의로 조정했었죠. 그런 면에서는 이 것과 다르지 않을것 같네요.
결국엔 인간의 생각과 가치, 관념이 들어가게 됩니다.

페이지랭크도 기본 알고리듬만 공개되었지, 세부적인 로직들과 파라미터들은 절대공개를 하지 않습니다. 사실 이게 다 공개되면, 스팸공격에 쉽게 당하겠지요. 그러고 보면, 내부 알고리듬을 공개하지 않는 것은 그렇게 강력한 알고리듬이 아니라는 반증이 되겠네요. 시스템이 게이밍당한다는 전제하에서 모든 로직을 다 오픈해서도 스팸을 방어할 수 있는 균형(equilibrium)을 확보할 수 있는 모델이 되어야 그나마 불투명성으로 인해 생기는 불공평함과 조작 가능성은 없앨 수 있겠네요.

그런 알고리즘이 진정 ideal한 알고리즘이겠죠.
그것이 가능한가는 또 어려운 문제라고 봅니다.

스팸 공격도 있겠지만,
로직 뿐만 아니라 파라미터도 일종의 '노하우'가 되기 때문에 공개를 하지 않는 것 같습니다. 맛집의 비법소스죠.

Data 자체의 공정성 문제도 있을겁니다.
Data 선별 과정에서 이미 인간의 생각이 반영되고,
Data 를 입력하기 전 preprocessing 하는 과정도 임의적인 것이고요.

최근에 저자의 책이 번역되서 국내에 출판되었습니다 ㅎㅎ [책, 스티미언 소개] 대량살상 수학무기// Feat @jingdol, 와 [과학] 알제로 // 인공지능과 빅데이터
글에서 다루었었습니다 ㅎㅎ

요약감사합니다 아톰님. 읽으면서 블록체인은? 이라는 생각을 했는데 역시 마지막에 정리를 해주시네요. 역시 투명성과 평등한 접근성이 엄청 중요하군요. @nand 님 댓글에도 적으신것 처럼 모든걸 오픈 했는데도 스팸을 방어할 수 있다라는게 얼마나 대단한건지 세삼 느끼고 갑니다. 감사합니다. 좋은 하루 보내세요.

알고리즘을 만드는 인간의 주관과 가치판단이 배제될수 없으니 무작정 신뢰하기 어렵다는 생각은 했지만, 캐시오닐의 책을 접하고 나서야 loop of Negative feedback 의 무시무시함에 놀랐고 진정 경각심을 느끼게 되었습니다.

안녕하세요 atomrigs님, 좋은 말씀 잘 보고 가네요. 저는 "잘못된 데이타로 인해 입게될 사회적 피해에 대한 고려" 해야 한다는 부분에 공감을 하네요. 빅데이터라는 부분도 물론 어느분야에도 적용할 만큼의 효과가 있다는 얘기를 들은적이 있지만 그거로 인한 문제는 반듯이 고려해야 하는 부분인 듯 하네요. 앞으로의 암호화화폐 시장은 이와 함께 고려해서 더 발전해야 한다는 생각이 듭니다. 감사합니다.

단순히 빅데이터라 해서 핸드폰 접속로그, 자동차 이동 로그 모 이런걸 생각하고 기대하고 클릭했는데. 그게 아니군요. 단순히 기술의 발달은 생활을 조금 편하게 만들어 주는 것이라 생가했었는데.. 어느새 인간 본유의 기능인 사고판단 마저 기술이 침범하고 있었네요.

저 역시도 인터넷 상에서 무수히 많은 정보가 생산되지만 무엇이 중요한지는 포털의 알고리즘에 의해서 판단하게끔 하고 있었단 생각이 듭니다.

본문의 마지막 데이터 과학자들과 일반인들에게 전하는 메시지는 블록체인의 보편화 될 시기에도 그대로 적용할 수 있겠군요.

좋은 글 감사드립니다^^

퍼블릭 블록체인도 갈수록 중앙화가 되어져가고 있다고 봅니다. 가장 큰 예는 EOS등 POS 코인과 마스터노드 코인이고 앞으로 나올 이더리움도 중앙화가 되어지고 있다고 봅니다.
이더리움 POS하는데 몇십억이나 든다고 하니 이것은 기관이나 큰 손들이 아니면 일반인은 투표도 하지말라는 것과 같다고 봅니다.
DPOS용 코인들은 절대로 탈중앙화라고 부르면 안된다고 봅니다.
물론 소스와 장부는 누구나 볼 수는 있지만 투표는 몇명이서만 한다면 그것은 또 다른 중앙화라고 보여집니다.

몇번 더 봐야 될것 같습니다 ^^ 잘 읽었습니다 감사합니다

Coin Marketplace

STEEM 0.26
TRX 0.11
JST 0.032
BTC 64799.61
ETH 3102.94
USDT 1.00
SBD 3.83