Si sigues a Mozilla en TikTok, probablemente hayas visto que ahora, iOS 17 para iPhone te permite clonar tu voz. La función es espeluznante y genial en partes iguales; espeluznante porque ahora puedes tener una copia de tu voz viviendo en tu teléfono, y genial porque aquellas personas que por algún motivo han perdido la capacidad de hablar pueden usar esta función para comunicarse utilizando las aplicaciones de su teléfono.

Aquí, en la Fundación Mozilla, sabemos algunas cosas sobre la relación entre voz e IA. El proyecto Common Voice de Mozilla busca mejorar el reconocimiento de voz para que sea más multilingüe e inclusivo. Todas las personas, incluso tú, pueden donar muestras de audio de su voz aquí para que, luego, los que crean sistemas de IA pueden usar el set de datos para asegurarse de que sus productos con funciones de voz representen y entiendan las voces que se escuchan en todo el mundo.

No es de extrañar que la gente de Common Voice haya estado experimentando con la nueva función de voz de Apple y tengan cosas que decir al respecto. Em Lewis-Jong es la directora de producto de Common Voice, y nos cuenta lo que la ilusiona y preocupa acerca de la función Personal Voice de iOS 17.

¿Qué tiene de bueno la función Personal Voice de iOS 17?

Es fácil olvidar lo impresionante que es que la mayoría de las personas caminen con un superordenador en el bolsillo. Del mismo modo, es fácil dar por sentado lo impresionante que es que exista una función como Personal Voice en iOS 17. «Incluso hace cinco años, hacer esto en un dispositivo con este nivel de calidad era algo imposible», dice Em. «Es increíble que la solución de Apple solo requiera 150 expresiones, está un paso por delante de cualquier otra cosa orientada al consumidor que yo haya visto».

Tal vez más impresionantes que la tecnología sean sus usos en el mundo real. No podemos suberstimar las ventajas de accesibilidad de la función Personal Voice de Apple. Mejora significativamente lo disponible anteriormente. Em señala un ejemplo que vio a través de Common Voice: «Cuando me uní a Common Voice por primera vez, fue realmente emocionante escuchar algunas de las diferentes aplicaciones de texto a voz», explica Em. «Una de ellas era una profesora que iba a perder la voz debido a una enfermedad, y que quería seguir dando sus conferencias con su propia voz. Casos de uso como ese son la razón por la que creo que herramientas como estas son realmente maravillosas».

¿Qué tiene de preocupante la función Personal Voice de iOS 17?

Esta función solo está disponible en inglés. Ahora te explicamos por qué eso es un problema

En muchos sentidos, el inglés es el idioma de Internet: el 64 % de los sitios web utilizan el inglés como idioma principal. Del mismo modo, las empresas de tecnología a menudo lanzan sus productos primero en inglés. Un ejemplo: la función Personal Voice de Apple. Diseñada en California, Personal Voice para iOS 17 solo está disponible en el idioma principal de Apple.

Common Voice busca reducir la dependencia del inglés en Internet y trabaja con más de 100 idiomas. Según Em, fue fácil encontrar datos sobre el habla en inglés, pero no es tan fácil encontrar datos de voces en inglés con acentos no dominantes, y menos aún datos de idiomas pertenecientes a comunidades con bajos recursos.

«Es un verdadero círculo vicioso», dice Em. «Internet está básicamente en unos pocos idiomas, por lo que la nueva generación se comunica principalmente en línea utilizando segundos o terceros idiomas (inglés, español, francés), mientras que el idioma de sus abuelos se olvida cada vez más. Es normal y natural que Apple lance sus productos primero en inglés, pero esto refuerza una dinámica que vemos a menudo donde el anglocentrismo de la tecnología tiene consecuencias reales para los usuarios de Internet cuyo primer idioma no es el dominante».

¿Apple está usando Personal Voice para afectar la forma en que desarrolla sus productos? No lo tenemos claro.

En Apple son sinceros con respecto a esta función y la privacidad que tienen los usuarios. La explicación de Apple sobre Personal Voice señala que el entrenamiento de la IA se realiza localmente en tu dispositivo. La empresa también se expresa de forma directa sobre la impresión de tu voz tocando la nube si tienes habilitado el ajuste de «compartir entre dispositivos». Dicho esto, ¿qué está haciendo Apple con todos los datos de voz que está recopilando para entrenar tu voz?

«Tu voz personal está protegida localmente y en la nube, pero, por lo que he visto, Apple no ha dicho nada sobre los datos que entregas para entrenar al modelo en primer lugar», comenta Em. «Sabemos que la voz sintetizada se almacena localmente o se cifra de extremo a extremo si la compartes entre dispositivos Apple. ¿Qué pasa con los datos de voz que se utilizan para entrenar la voz sintetizada? ¿A dónde van? ¿Apple los utiliza continuamente? Apple dicee explícitamente que puede usar tus clips de voz para mejorar sus productos y servicios para funciones como Siri, por lo que no sería descabellado pensar que quizás también hagan eso aquí».

¿Hacia dónde vamos con las funciones de voz con IA?

Para aquellos que saben dónde encontrar la función, Personal Voice de Apple ofrece una introducción fácil de usar para ingresar al mundo de las voces impulsadas por IA. Pero esto es solo un comienzo, especialmente si tenemos en cuenta que solo está disponible en un idioma.

El inglés probablemente será el idioma predeterminado de Internet por un tiempo. Pregunta en Common Voice y te dirán que parte de la solución para esto es la donación de datos. «Contar con una mayor diversidad de datos para el entrenamiento es parte de la solución para este problema», explica Em. «Las comunidades deben reunirse y movilizarse para crear sets de datos. Esperar a que las empresas vengan, lo arreglen y se interesen por sus comunidades lingüísticas no es el camino a seguir, porque si las empresas no ven una viabilidad comercial seria, lo más probable es que no lo hagan. Por lo tanto, tiene sentido que las comunidades intenten resolver este problema por sí mismas y digan: “queremos que el reconocimiento de voz funcione para nosotros, vamos a recopilar esos datos para nosotros y para nuestras comunidades y para las personas que hablan nuestro idioma“».

¿Clones de voz en los iPhones? Common Voice de Mozilla tiene cosas para decir al respecto

Redactado por: Xavier Harding

Editado por: Audrey Hingle, Innocent Nwani, Kevin Zawacki, Xavier Harding

Arte: Shannon Zepeda


Contenido relacionado