AI의 또 다른 영역, 비디오 편집에선 어떤 능력을 발휘할까?
요즘에는 아마추어건 프로이건 할 것 없이 유투브에 영상을 올리는 사람들 많습니다. 그리고 보통 자신들이 좋아하는 곡의 특정부분을 똑같이 연주하기위해 많은 양의 시간을 할애하기도합니다. 하지만 만약에 자신이 좋아하는 곡에서 자기가 듣고 싶은 악기파트만 따로 분리해날 수 있다면 어떨까요? '밀애'라는 드라마에서 천재 피아니스트 남자주인공의 곡 준비를 위해서 여자주인공은 반주를 처주다가 더 이상 반주를 쳐주는것이 어려워져서 어렸을때 본인이 녹음해놨던 CD를 건넵니다. 그걸 가지고 남자주인공은 연주회를 준비하게됩니다. AI가 오리지널 곡에서 필요한 부분만 쏘옥 빼서 들려줄 수 있었다면 드라마의 상황이 완전 달라졌겠죠?
지금 말하는 AI기술은 MIT의 컴퓨터 과학 및 인공 지능 연구소(CSAIL)의 새로운 인공 지능 프로젝트의 결과인데요, 즉, 음악 공연고나련 비디오를보고 특정 악기의 사운드를 분리하여 더 크게 혹는 더 작게 만들어주는 딥러닝 시스템입니다. "Self-supervised(자가감독)"시스템은 어떤 악기들이 영상내에 있는지 혹은 그리고 그 악기들이 어떤 소리를 내는지에 대해서 인간의 해석을 요구하지 않습니다. 60 시간 이상의 비디오 교육을받은 "PixelPlayer"시스템은 한번도 본 적없는 음악 공연을 보고 픽셀 단위로 특정 악기를 식별해내 어 해당 악기와 관련된 사운드를 추출해낼 수 있습니다. 예를 들어, "Super Mario Brothers"테마 곡을 연주하는 튜바 및 트럼펫의 비디오를 가져다주면 이 시스템은 각 악기와 관련된 음파를 분리 할 수 있습니다. 이 프로젝트 연구원은 개별 악기의 볼륨을 변경할 수 있다는것은 다시말하면 머지않아 시스템이 엔지니어들이 오래된 콘서트 영상의 오디오 품질을 향상시키는 데 도움이 될 수 있음을 의미한다고 말합니다. 또한, 이 기술이 더 발전된다면 프로유서들이 특정 파트에 대해서 어떤 악기로 연주하면 더 나을지 미리 들어들어보고 결정할 수 있는 날이 올 수 있습니다.
새로운 팀은 새로운 논문을 통하여 PixelPlayer가 자주 사용되는 20가지 정도의 악기 사운드를 식별 할 수 있음을 보여주고 있습니다. 논문의 주 저자인 Hang Zhao씨는 알토 색소폰과 테너 색소폰과 같은 미묘한 차이를 가진 악기들의 경우 현재 어려움을 겪고 있긴 하지만 더 많은 데이터로 트레이닝이 된다면 20개 이상의 악기음도 거뜬히 식별해낼 수 있을것이라고 말합니다. 이전 까지만 해도 소리의 원천을 분리해내는 작업에 있어서는 오직 소리에만 의존하여 사람이 수동적으로 레이블링 하는 작업이 필요했습니다. 하지만 PixelPlayer같은 경우는 인간의 감독없이 'Super-supervised'기능을 통하여 스스로 식별하여 레이블링을 합니다. 시스템은 먼저 사운드를 생성하는 이미지 영역을 찾은 다음 각 픽셀의 사운드를 나타내는 구성 요소 집합과 인풋된 사운드로 분리합니다. CSAIL의 박사과정에 있는 Zhao씨는 "어떤 악기가 어떤 종류의 소리를 내는지를 식별해내는 정도가 최상의 시나리오라고 예상했었는데요, 픽셀 레벨에서 악기음을 실제로 공간적으로 배치할 수 있다는 사실에 놀랐습니다. 그렇게 할 수 있다면 비디오를 한번 클릭함으로써 개별 악기의 오디오를 편집 할 수있는것과 같은 여러가지 가능성을 열 수 있다는 의미겠죠."라고 말했습니다.
PixelPlayer는 'deep learning'방법을 사용합니다. 기존에는 뉴런 네트워크를 사용하여 기존 영상을 기반으로 훈련하여 데이터의 패턴을 찾는것이죠. 특히, 하나의 뉴럴 네트워크는 비디오 이미지를 분석하고, 두번째 뉴럴 네트워크는 음향을 분석하고, 세 번째 "Synthesizer"는 특정 픽셀을 특정 사운드 웨이브와 매칭시켜서 다른 사운드로부터 분리시킵니다. PixelPlayer가 "Self-supervised" 딥러닝 사용한다는 말은 다른말로는 이 시스템이 어떤 악기가 어떤 소리를 내는지를 학습하는 방법에 대해서 완벽하게 설명할 수는 없지만 Zhao씨는 이 시스템이 음악의 구성요소를 인식하는 것 같다고 말합니다. 예를 들어, 특정 고조파 주파수는 바이올린과 같은 악기와 관련이있는 반면, 빠른 템포의 패턴은 실로폰과 같은 악기에 해당된다고 볼 수 있습니다. Zhao씨는 PixelPlayer과 같은 시스템이 언젠가는 동물이나 차량과 같이 다른 물체가 만드는 환경적인 소리를 더 잘 이해하기 위해 사용될 수 있을 것이라고 합니다. 그의 팀이 발표한 논문은 다가오는 9월에 독일 뮌헨에서 열리는 컴퓨터 비전에 관한 유럽 회의(ECCV)에 채택되었다고 하네요.
출처 : http://news.mit.edu/2018/ai-editing-music-videos-pixelplayer-csail-0705
(jjangjjangman 태그 사용시 댓글을 남깁니다.)
[제 0회 짱짱맨배 42일장]2주차 보상글추천, 1주차 보상지급을 발표합니다.(계속 리스팅 할 예정)
https://steemit.com/kr/@virus707/0-42-2-1
현재 1주차보상글이 8개로 완료, 2주차는 4개 리스팅되어있습니다!^^
2주차에 도전하세요
그리고 즐거운 스티밋하세요!