Así funciona Google Duplex, el sistema que se pone al teléfono por ti y que da un poquito de miedo Imprimir
Jueves, 22 de Noviembre de 2018 11:29

Que una máquina te llame no es nada nuevo, pero que lo haga para conversar contigo de formaf natural es algo muy distinto. Es lo que ofrece Google Duplex, el sistema de inteligencia artificial aplicado a la automatización de las conversaciones telefónicas. La demostración que Sundar Pichai hizo durante la conferencia Google I/O 2018 nos dejó a todos asombrados, y aunque ciertamente la tecnología dejó patente su capacidad, el debate sobre privacidad, transparencia y malos usos es inevitable.

Una voz robótica que parece totalmente humana. Llevábamos apenas 35 minutos de conferencia cuando Sundar Pichai comenzó a hablar de Google Assistant. El sistema, nos decía, quería resolver un problema común: el de los pequeños negocios que no tienen sistemas automatizados de reserva online.

Y entonces, esto (minuto 35:00): Esa llamada en la que una máquina hablaba con una persona y lo hacía de forma totalmente natural marca un punto de inflexión. Uno en el que la comprensión del lenguaje natural, el aprendizaje profundo y el dictado de textos demuestra por primera vez que puede engañarnos y hacernos pensar que estamos hablando con una persona real.

La encargada de la peluquería en ningún momento sospechó que quien la llamaba era una voz sintetizada —esas pausas, esos "ahmmm..." y esos "mm-hmm..." ayudaban a que la voz robótica se convirtiera en una voz humana, con entonación humana y con esas mismas pausas y dudas que habitualmente hacemos al hablar los seres humanos.

Como indicaba Pichai, el sistema es el resultado de varios años de trabajo en esos ámbitos. Mostró algún ejemplo algo distinto, como el de la llamada del sistema para una reserva de restaurante que no acabó de resolverse del todo —"no reservamos para menos de 5 personas, podéis pasaros directamente, habrá sitio"—, pero aún así el asistente consiguió lo que el usuario deseaba: no tener que hacer él la llamada y obtener esa reserva (o algo parecido a ella).

Redes neuronales al habla

Como explicaban en el blog de inteligencia artificial de Google, el sistema conversacional de Google Duplex se basa en una Red Neuronal Recurrente (RNN) -hablamos de esta tecnología en profundidad aquí- desarrollada mediante TensorFlow Extended.

Como ocurre con otros sistemas similares, para lograr esta precisión en su nivel de conversación la red neuronal tuvo que ser entrenada con conversaciones telefónicas anonimizadas. El sistema hace uso de la tecnología ASR (Automatic Speech Recognition) de Google y analiza distintos parámetros para lograr diferenciar el contexto y entender qué le está diciendo el interlocutor. Hasta es capaz de entender cuándo está siendo interrumpido y para qué:

Para lograr que esa voz suene natural se usa el sistema de dictado (Text to Speech, TTS) usando Tacotron y WaveNet para controlar la entonación. Lo más interesante aquí es la introducción de las llamadas 'speech dysfluencies', esas pausas en forma de 'ahm' y 'uhm' que son comunes entre los seres humanos al expresarse y que hacían que la voz sintetizada fuera aún más convincente a la hora de parecer humana.

El sistema es capaz de mantener conversaciones de forma "totalmente autónoma, sin intervención humana", explican en Google, aunque también integra un sistema de monitorización que avisa a un operador humano de que cierta tarea no ha podido ser completada.

Google Duplex, eso sí, no está pensado de momento para hablar de cualquier cosa: está pensado para reservas de servicios, algo que reduce el contexto de preguntas y respuestas y que lo acota para hacer todo más manejable.

Transparencia, privacidad y malos usos

Escuchar a Google Duplex en funcionamiento es realmente impresionante, y de hecho algunos plantean si este sistema podría o no superar ya el test de Turing —el bot conversacional Eliza https://www.xataka.com/historia-tecnologica/asi-era-eliza-el-primer-bot-conversacional-de-la-historia—. Probablemente no de forma amplia, pero desde luego estas conversaciones hacen pensar que es posible engañar a cualquiera con este tipo de sínteis de voz y reconocimiento del lenguaje natural.

FUENTE: https://www.xataka.com