페이스북 CEO Mark Zuckerberg의 AI 개발기 (2016.12월 글 옮김)
본 글은 2016.12월에 Mark Zuckerberg가 올렸던 AI 개발기를 보고
https://www.facebook.com/zuck/posts/10154361492931634
당시에 제가 요약해서 Facebook에 올렸던 글을 옮겨놓습니다.
https://www.facebook.com/nolimit.k/posts/1333365393371827
페북CEO의 AI 개발기~
약간 늦었지만 그래도 굉장한 인사이트들이 생생하게 담긴 문서여서 공유!
초간단 요약
마크주커버그는 2016년 개인 목표로 가전기기를 제어하는 개인형 비서 AI Jarvis (아이언맨의 그것)을 개발하였음. (약 100시간 소요... @.@;;)
. 제어 대상 가전기기 : 전등, 온도조절장치, 보안 도어, 무선스피커, 음악 스트리밍서비스, TV, 홈캠, 토스트기계, 티셔츠 발사 캐논(;;;)
. 사용자 인터페이스 : 메신저, 보이스, 도어 카메라
. 활용 AI : 자연어 처리, 음성 인식, 안면 인식우선, 가전기기들간 인터페이스 연결 작업 자체에 시간이 오래 걸렸음;; (사실 대부분의 가전기기들은 인터넷 연결 자체가 되어있지 않음.)
Jarvis와 같은 개인용 비서 개발을 위해서는 가전기기간 공용API 개발이 필요해보임.
(* 아직 스마트홈 분야에서는 De Facto Standard 가 없다고 해석됨. 이곳에서의 표준에 대한 주도권을 단기간 내에 확보하는 업체에게는 장기적으로 기회가 생길 수도..?)자연어 처리는 두 단계로 구현 : (1) 문자 커뮤니케이션, (2) 음성을 문자로 변환
. 우선 동의어 처리가 필요하다는 것을 바로 느꼈고, (e.g. family room = living room)
. 어쨌건 AI는 Context맥락에 대한 이해가 가장 중요하더라. (e.g. 마크주커버그의 "내 사무실"은 아내인 프리실라의 "내 사무실"과 명령어는 같아도 전혀 다른 곳을 의미하기 때문)
. 음악에서의 자연어처리는 방대한 DB로 인해 생각보다 복잡하고 재미있음. 비슷해보이는 다음 세가지 명령은 전혀 다른 종류의 명령어임.
A. "나와 같다면 틀어줘" - 특정 곡 재생
B. "김연우 같은 걸로 틀어줘" - 김연우 이외의 연주자 추천
C. "김연우 걸로 틀어줘" - 김연우의 곡 재생
. 음악을 통해 지속적으로 개인 취향에 대해서도 AI를 훈련시킬 수 있었음. "밝은 곡으로 틀어줘. (재생) 아니야, 그 곡은 별로 밝지 않아." 이와 같은 훈련을 통해 X라는 곡을 틀어줘~ 라는 닫힌 질문들 뿐만 아니라, "노래좀 틀어봐"와 같은 '열린 질문'들에 대해서도 AI는 답을 할 수 있게 됨. 여기에서 큰 기회가 있을 것이라고 생각한다고 함.안면인식을 통해 사람을 식별하는 것은 페이스북이 역시나 잘함. (응?)
문 앞에 카메라'들'(3D 입체인지 아니면 2D 이미지인지 구분 가능)을 설치해놓고 (1) 누군가 문 앞에 왔는지 '안면을 인식'해서 (2) 그 안면이 누구인지 '식별'해냄 (3) 내 출입 '허용 목록'에 있는 사람이라면 문을 열어주고 나에게 그들이 왔다는 것을 알려줌
. 비쥬얼 인식을 AI가 잘 해낼 수록 Context에 대한 이해도가 높아지기 때문에, "불좀 켜봐"라는 위치에 대한 정보가 없는 불친절한 명령어에도 그 사람이 있는 방 혹은 잠에서 깨어난 사람들이 있는 방의 불만 켜는 것도 가능해질 것임.놀랍게도 Jarvis와의 커뮤니케이션시 '음성' 보다 '문자(!)'방식을 훨씬 더 많이 사용하고 있는 자신을 발견했음. (주위에 누군가 있을 때 어색하기도 하고 전반적으로 더 자연스러운 느낌. Jarvis가 자신에게 커뮤니케이션할 때에도 문자로 받아야 자신이 필요할 때 문자를 읽는 컨트롤이 되어 더 편안했기 때문 등)
앞으로 AI 개발시 음성 인터페이스 뿐만 아니라 여전히 메시징 인터페이스에도 많은 신경을 써야 할 것이라는 확신이 생겼다 함.음성인식/머신러닝이 해결하는 문제는 의외로 특정 문제에 최적화되어있음. (예를 들면, 사람이 기계에 말할 때와 사람간의 대화 간에는 미묘한 차이가 존재함. 구글에 주로 입력되는 검색어와 페북에 주로 입력되는 검색어가 다르고, 가까운 거리의 Jarvis에게 내리는 명령어와 먼거리에 있는 Echo에게 내리는 명령어는 약간씩 다름)
심리적으로 흥미로웠던 점은, 일단 기계에게 말을 걸게 되는 순간 정서적인 기대치를 부여하게 되더라. Jarvis에게 말을 걸다보니, 유머센스를 장착시키고 싶어졌고, 구현함 ㅋ
페이스북CEO를 맡다보니 막상 내부 시스템을 활용해서 코드를 짤 시간은 별로 없었는데, 이번 기회를 통해 실제 페이스북 개발자들과 동일한 환경에서 개발을 직접 하게 되었고 깊은 인상을 받았다고 함 (!!!)
이번 개발을 통해, 새로 입사한 개발자가 겪게 되는 과정을 마크주커버그가 직접 겪게 된 셈인데 코드가 너무나 잘 정돈되어 있었고 필요한 정보를 매우 쉽게 찾아볼 수 있어서 개발과정 내내 감명을 받았음...
이는 페이스북 코어밸류인 "move fast"를 실무레벨에서 실제로 이행하고 있다는 것을 몸소 깨달았다며, 개발자들을 아주 칭찬해.
(* 라고 마크주커버그가 적었지만, 이렇게 직접 깨달을 수 있는 CEO를 더 칭찬해...!!)5~10년 이내 AI는 시각, 청각, 촉각 등에 있어서 인간보다 훨씬 더 정확해질 것이라고 예견한 바 있는데, 이번 경험을 통해 더욱 확신이 들었으며,
인공지능이 우리 상상과 꽤나 가까우면서도 거리가 먼 것을 모두 확인할 수 있었는데,
A. (자동차운전, 질병치료, 행성발견, 기사 이해와 같은 것 이외에도) 더 강력한 영향을 발휘할 것이고, 아직도 우리는 파악해나가는 과정에 있으나,
B. 현재 AI학습 방식으로는, 하나의 Domain영역에서 학습한 내용을 다른 분야에 확산시키기 어렵다는 한계가 있음. (Jarvis 개발에 1,000시간을 더 들인다고 해도 스스로 다른 스킬을 학습하게 만들 수는 없을 것)