Una nueva ola de nuevas empresas estan utilizando deep learning para crear actores de voz sintéticos para asistentes digitales, personajes de videojuegos y videos corporativos.
WellSaid Labs , una startup con sede en Seattle que surgió de la investigación sin fines de lucro Allen Institute of Artificial Intelligence, ofrece voces de inteligencia artificial a sus clientes. Por ahora, se especializa en voces para videos corporativos de e-learning. Otras startups hacen voces para asistentes digitales , operadores de centros de llamadas e incluso personajes de videojuegos .
No hace mucho tiempo, esas voces deepfake tenían una pésima reputación por su uso en llamadas fraudulentas y engaños en Internet . Pero la mejora de su calidad ha despertado el interés de un número creciente de empresas. Los avances recientes en deep learning han hecho posible replicar muchas de las sutilezas del habla humana. Estas voces se detienen y respiran en todos los lugares correctos. Pueden cambiar su estilo o emoción. Puede detectar el truco si hablan durante demasiado tiempo, pero en clips de audio cortos, algunos se han vuelto indistinguibles de los humanos.
Las voces de IA también son baratas, escalables y fáciles de trabajar. A diferencia de una grabación de un actor de voz humano, las voces sintéticas también pueden actualizar su guión en tiempo real, abriendo nuevas oportunidades para personalizar la publicidad.
Pero el surgimiento de voces falsas hiperrealistas no está libre de consecuencias. Los actores de la voz humana, en particular, se han preguntado qué significa esto para sus medios de vida.
Cómo fingir una voz
Las voces sintéticas han existido por un tiempo. Pero los viejos, incluidas las voces de Siri y Alexa originales , simplemente unieron palabras y sonidos para lograr un efecto robótico torpe. Conseguir que suenen más naturales fue una laboriosa tarea manual.
El aprendizaje profundo cambió eso. Los desarrolladores de voz ya no necesitaban dictar el ritmo, la pronunciación o la entonación exactos del discurso generado. En cambio, podrían introducir unas pocas horas de audio en un algoritmo y hacer que el algoritmo aprenda esos patrones por sí solo.
«Si soy Pizza Hut, ciertamente no puedo sonar como Domino’s, y ciertamente no puedo sonar como Papa John’s».
Rupal Patel, fundador y CEO de VocaliD
A lo largo de los años, los investigadores han utilizado esta idea básica para construir motores de voz que son cada vez más sofisticados. El que WellSaid Labs construyó, por ejemplo, utiliza dos modelos principales de aprendizaje profundo. El primero predice, a partir de un pasaje de texto, los trazos generales de cómo sonará un hablante, incluidos el acento, el tono y el timbre. El segundo completa los detalles, incluidas las respiraciones y la forma en que la voz resuena en su entorno.
Sin embargo, hacer una voz sintética convincente requiere algo más que presionar un botón. Parte de lo que hace que una voz humana sea tan humana es su inconsistencia, expresividad y capacidad para pronunciar las mismas líneas en estilos completamente diferentes, según el contexto.
Capturar estos matices implica encontrar los actores de voz adecuados para proporcionar los datos de entrenamiento adecuados y ajustar los modelos de deep learning. WellSaid dice que el proceso requiere al menos una o dos horas de audio y algunas semanas de trabajo para desarrollar una réplica sintética que suene realista.
Las voces de IA se han vuelto particularmente populares entre las marcas que buscan mantener un sonido consistente en millones de interacciones con los clientes. Con la ubicuidad de los altavoces inteligentes en la actualidad y el aumento de los agentes de servicio al cliente automatizados, así como los asistentes digitales integrados en los automóviles y dispositivos inteligentes, las marcas pueden necesitar producir más de cien horas de audio al mes. Pero tampoco quieren seguir utilizando las voces genéricas que ofrece la tecnología tradicional de conversión de texto a voz, una tendencia que se aceleró durante la pandemia a medida que más y más clientes se saltaban las interacciones en la tienda para interactuar virtualmente con las empresas.
«Si soy Pizza Hut, ciertamente no puedo sonar como Domino’s, y ciertamente no puedo sonar como Papa John’s», dice Rupal Patel, profesor de Northeastern University y fundador y director ejecutivo de VocaliD, que promete construir voces personalizadas que coinciden con la identidad de marca de una empresa. “Estas marcas han pensado en sus colores. Han pensado en sus fuentes. Ahora también tienen que empezar a pensar en cómo suena su voz
Mientras que las empresas solían tener que contratar diferentes actores de voz para diferentes mercados (el noreste frente al sur de EE. UU. O Francia frente a México), algunas empresas de inteligencia artificial de voz pueden manipular el acento o cambiar el idioma de una sola voz de diferentes maneras. Esto abre la posibilidad de adaptar anuncios en plataformas de streaming en función de quién esté escuchando, cambiando no solo las características de la voz sino también las palabras que se están pronunciando. Un anuncio de cerveza podría decirle a un oyente que pase por un pub diferente dependiendo de si se está reproduciendo en Nueva York o Toronto, por ejemplo. Resemble.ai, que diseña voces para anuncios y asistentes inteligentes, dice que ya está trabajando con los clientes para lanzar anuncios de audio personalizados en Spotify y Pandora.
Las industrias del juego y el entretenimiento también están viendo los beneficios. Sonantic, una firma que se especializa en voces emotivas que pueden reír y llorar o susurrar y gritar, trabaja con creadores de videojuegos y estudios de animación para proporcionar las voces en off de sus personajes. Muchos de sus clientes utilizan las voces sintetizadas solo en la preproducción y cambian a actores de voz reales para la producción final. Pero Sonantic dice que algunos han comenzado a usarlos a lo largo del proceso, quizás para personajes con menos líneas. Resemble.ai y otros también han trabajado con películas y programas de televisión para arreglar las actuaciones de los actores cuando las palabras se confunden o se pronuncian mal.
Pero existen limitaciones en cuanto a lo lejos que puede llegar la IA. Todavía es difícil mantener el realismo de una voz durante los largos períodos de tiempo que pueden ser necesarios para un audiolibro o un podcast. Y hay poca capacidad para controlar el desempeño de una voz de IA de la misma manera que un director puede guiar a un intérprete humano. «Todavía estamos en los primeros días del habla sintética», dice Zohaib Ahmed, fundador y director ejecutivo de Resemble.ai, comparándolo con los días en que la tecnología CGI se usaba principalmente para retoques en lugar de crear mundos completamente nuevos a partir de pantallas verdes.