Google Crea una IA Para voces

in #spanish6 years ago

Trabaja como un humano asila nuestra voz
google.jpg

La escucha selectiva es un mecanismo muy complejo que la neurociencia todavía no tiene del todo clara desde Google han conseguido crear una IA que es capaz de hacer exactamente eso aislar una voz de un hablante en un vídeo de otras voces y ruido de fondo.
Como ya sabéis nosotros podemos escuchar varias personas a la vez con facilidad
La IA de Google puede aislar voces en un vídeo con varias personas para hacer esto han hecho uso de un modelo de deep learning que puede amplificar la voz de determinadas personas en un vídeo. Para ello, hace uso tanto del audio como del vídeo de la persona hablando para replicar cuando nos centramos en una persona o un único sonido, esto tiene un nombre curiosee “efecto de fiesta de cóctel”. Para programar la IA, los investigadores recogieron 100.000 vídeos de YouTube de alta calidad, incluyendo charlas y presentaciones, para aislar un total de 2.000 horas de gente hablando sin ningún tipo de interferencia de fondo y que se vieran claramente en la cámara, aplicaron lo de la fiesta coctel a su estilo cibernético, mezclando varios vídeos de varios hablantes y añadiendo ruido de fondo. Con ello entrenaron el modelo para que pudiera diferenciar cada señal de audio a raíz de lo que ya conocía previamente. De lo más jugoso de que podemos sacar es que según nos cuentan que con esto se puede tener esta tecnología encontramos que se puede crear un sistema de subtítulos automatizado muchísimo mejor que la mierda de subs que nos dan en la mayoría de videos, otros usos pueden ser su implementación en altavoces inteligentes, gracias a lo cual podrán identificar mejor a cada usuario de la casa, o crear un sistema de identificación basado directamente en la voz de su dueño. Con ello también se mejora la compresión de las órdenes que le demos a distancia si hay más gente hablando y mejorar la grabación de videos. Aquí hay algo raro Google algo que beneficie a la gente sin joderla que creéis que puede pasar ya sabéis espionaje chavales más sencillo y más claro y te podrían rastrear por tu voz en un futuro comparando lo que dijiste en una base de datos con algo que se escuchó en x cámara. Dejando esta atemorizante premisa me despido


Sort:  

completamente impresionante como puede seleccionar una voz y silenciar la otra.

Coin Marketplace

STEEM 0.21
TRX 0.14
JST 0.030
BTC 69508.29
ETH 3366.22
USDT 1.00
SBD 2.74