Se você segue a Mozilla no TikTok, provavelmente viu que o iOS 17 no iPhone agora permite que você faça um clone da sua voz. O recurso é igualmente assustador e legal — assustador porque uma cópia da sua voz agora pode estar no seu telefone. Mas também é legal, porque aqueles que perderam a capacidade de falar podem usar o recurso para se comunicar em voz alta usando os aplicativos do telefone.
Nós aqui na Fundação Mozilla sabemos uma coisa ou duas sobre voz e IA. O projeto Common Voice da Mozilla busca melhorar o reconhecimento de fala para ser mais multilíngue e inclusivo. Todos os dias, pessoas comuns como você podem doar amostras de áudio de sua voz aqui e, em seguida, aqueles que criam sistemas de IA podem usar o conjunto de dados para garantir que seus produtos de voz representem e compreendam vozes ouvidas em todo o mundo.
Não é surpresa que as pessoas da Common Voice estejam experimentando o novo recurso de voz da Apple e tenham perspectivas. Em Lewis-Jong é diretora de produto da Common Voice — eis o que a deixa esperançosa e preocupada com o recurso Personal Voice do iOS 17.
O que é Notável no Recurso Personal Voice do iOS 17?
Às vezes, nos esquecemos de quão impressionante é o fato de muita gente andar por aí com um supercomputador no bolso. Da mesma forma, é fácil dar como certo o quão impressionante é um recurso como o Personal Voice no iOS 17. “Mesmo cinco anos atrás, fazer isso no dispositivo e obter esse tipo de qualidade não teria sido possível”, diz Em. "É incrível que a solução da Apple exija apenas 150 declarações — está um passo à frente de qualquer outra coisa voltada para o consumidor que eu tenha visto."
Talvez mais impressionantes do que a tecnologia sejam seus usos no mundo real. Os benefícios de acessibilidade do recurso Personal Voice da Apple não podem ser subestimados. Melhora significativamente o que estava disponível anteriormente. Em aponta para um exemplo que ela viu via Common Voice: “Quando entrei pela primeira vez na Common Voice, foi realmente emocionante ouvir algumas das diferentes aplicações de conversão de texto em fala”, diz Em. “Uma delas era uma professora que ia perder a voz devido a uma doença, mas realmente queria continuar dando palestras em sua própria voz. Casos de uso como esse são o motivo pelo qual acho que ferramentas como essas são realmente empolgantes.”
O que é Preocupante no Recurso Personal Voice do iOS 17?
Este recurso é apenas em inglês. Eis o motivo pelo qual isso é um problema
De muitas maneiras, o inglês é o idioma da internet — 64% dos sites usam o inglês como idioma principal. Da mesma forma, as empresas de tecnologia geralmente lançam seus produtos em inglês primeiro. Caso em questão: o recurso Personal Voice da Apple. Projetado na Califórnia, o Personal Voice no iOS 17 está disponível apenas no primeiro idioma da Apple.
Com mais de 100 idiomas, a Common Voice está buscando reduzir a dependência da internet do inglês. De acordo com Em, os dados sobre a fala em inglês eram facilmente encontrados, mas a respeito de vozes em inglês com sotaques não dominantes, menos, e idiomas em comunidades de recursos limitados, ainda menos.
"É realmente um ciclo vicioso", diz Em. “A internet está basicamente em alguns idiomas, então a próxima geração se comunica principalmente on-line usando o segundo ou terceiro idioma — inglês, espanhol, francês — enquanto o idioma de seus avós se torna cada vez mais esquecido. É normal e natural para a Apple lançar primeiro em inglês, mas isso reforça uma dinâmica que muitas vezes vemos em que o anglocentrismo da tecnologia tem consequências reais para os usuários da Internet cuja primeira língua não é dominante.”
A Apple está usando o Personal Voice para afetar a forma como constrói seus produtos? Não está claro.
A Apple é franca sobre esse recurso e a privacidade que os usuários têm. O esclarecedor da Apple sobre o Personal Voice observa que o treinamento da IA acontece localmente em seu dispositivo. A empresa também é transparente sobre a sua impressão vocal indo para a nuvem, caso você tenha "compartilhamento entre dispositivos" ativado. Dito isso, antes de mais nada, o que a Apple está fazendo com todos esses dados de voz que está coletando para treinar sua voz?
“Sua voz pessoal está protegida localmente e na nuvem, mas, pelo que vi, a Apple não disse nada sobre os dados que você entregou para treinar o modelo em primeiro lugar”, diz Em. “Sabemos que a voz sintetizada é armazenada localmente ou é criptografada de ponta a ponta se você compartilhar entre dispositivos Apple. E os dados de voz usados para treinar a voz sintetizada? Para onde eles vão? São usados continuamente pela Apple? A Apple diz explicitamente que pode usar seus clipes de fala para melhorar seus produtos e serviços para coisas como a Siri, então não seria uma suposição exagerada pensar que é isso que eles podem estar fazendo aqui.”
Como Avançaremos com os Recursos de Voz da IA?
Para aqueles que sabem onde encontrar o recurso, o Personal Voice da Apple oferece uma introdução fácil de usar ao mundo dos vocais alimentados por IA. Mas é apenas um começo — especialmente considerando que está disponível apenas em um idioma.
O inglês provavelmente será o idioma padrão da internet por um tempo. Pergunte à Common Voice e eles dirão que parte da correção aqui é a doação de dados. “Dados de treinamento mais diversificados fazem parte da solução para isso”, diz Em. “As comunidades precisam se reunir e se mobilizar para criar conjuntos de dados. Esperar que as empresas apareçam e se interessem por sua comunidade linguística não é o caminho a seguir — porque se as empresas não veem uma viabilidade comercial séria, muitas vezes não seguirão por esse caminho. Portanto, faz sentido que as comunidades tentem resolver esse problema sozinhas e digam: ‘ok, queremos que o reconhecimento de fala funcione para nós, vamos coletar esses dados para nós mesmos e para nossas comunidades e para as pessoas que falam nossa língua’.”
Clones de voz em iPhones? A "Common Voice" da Mozilla tem Perspectivas
Escrito por: Xavier Harding
Editado por: Audrey Hingle, Innocent Nwani, Kevin Zawacki, Xavier Harding
Arte por: Shannon Zepeda