Si vous suivez Mozilla sur TikTok, vous avez probablement vu que le système d’exploitation iOS 17 sur iPhone vous permet désormais de créer un clone de votre voix. Cette fonctionnalité est à la fois effrayante et géniale. Effrayante parce que votre téléphone peut désormais contenir une copie de votre voix, mais aussi géniale parce que les personnes qui ont perdu la capacité de parler peuvent utiliser cette fonctionnalité pour communiquer à voix haute.
À la Fondation Mozilla, nous sommes très au fait des questions liées à la voix et à l’intelligence artificielle. Le projet Common Voice de Mozilla vise à améliorer la reconnaissance vocale en vue de la rendre réellement multilingue et inclusive. Tout le monde peut faire don d’échantillons audio de leur voix ici et les créateurs de systèmes d’intelligence artificielle peuvent ensuite utiliser l’ensemble des données pour s’assurer que leurs produits vocaux représentent et comprennent des voix provenant du monde entier.
Sans surprise, les membres de Common Voice ont expérimenté la nouvelle fonction vocale d’Apple et nous livrent leurs impressions. Em Lewis-Jong est la directrice produit de Common Voice. Voici ce qui la rend à la fois optimiste et inquiète à propos de la fonction voix personnelle d’iOS 17.
Quels sont les atouts de la fonction voix personnelle d’iOS 17 ?
On oublie vite à quel point le fait que la plupart d’entre nous se promènent avec un superordinateur dans leur poche est remarquable. De même, il est facile de prendre pour acquis à quel point une fonction comme voix personnelle dans iOS 17 est impressionnante. « Il y a cinq ans, il n’aurait pas été possible de réaliser cela sur un téléphone et d’obtenir une telle qualité », déclare Em. « Le fait que la solution d’Apple ne nécessite que 150 énoncés est stupéfiant, c’est une avancée par rapport à tout ce que qui se fait sur le marché accessible au grand public ».
Les applications concrètes sont peut-être plus impressionnantes que la technologie. Les avantages de la fonction voix personnelle d’Apple en matière d’accessibilité ne peuvent pas être sous-estimés. Elle apporte des améliorations significatives par rapport à ce qui existait auparavant. Em cite un exemple qu’elle a découvert grâce à Common Voice : « Lorsque j’ai rejoint Common Voice pour la première fois, j’étais vraiment enthousiasmée par les différentes applications de synthèse vocale », explique Em, « l’une d’entre elles concernait un professeur qui allait perdre sa voix en raison d’une maladie, mais qui souhaitait vraiment continuer à donner des cours avec sa propre voix. C’est pour des cas d’utilisation comme celui-ci que je pense que des outils comme ceux-ci sont vraiment intéressants ».
Qu’y a-t-il d’inquiétant avec la fonction voix personnelle d’iOS 17 ?
Cette fonctionnalité n’est disponible qu’en anglais. Voici pourquoi c’est un problème
À bien des égards, l’anglais est la langue officielle d’Internet, 64 % des sites web utilisent l’anglais comme langue principale. De même, les entreprises technologiques lancent souvent leur produit en anglais dans un premier temps. C’est le cas par exemple de la fonction voix personnelle d’Apple. Développée en Californie, la fonctionnalité disponible sur iOS 17 n’est disponible que dans la langue maternelle de la société.
Avec plus de 100 langues, Common Voice cherche à réduire la prédominance de l’anglais sur Internet. Selon Em, les données sur la parole en anglais sont faciles à trouver, celles sur les voix anglaises avec des accents moins courants le sont moins, et celles sur les langues issues de communautés minoritaires le sont encore moins.
« C’est un véritable cercle vicieux », explique Em. « L’Internet est en fait disponible dans quelques langues, si bien que la nouvelle génération communique principalement en ligne en employant une deuxième ou une troisième langue (l’anglais, l’espagnol, le français), tandis que la langue de leurs grands-parents tombe de plus en plus dans l’oubli. Il est normal et naturel qu’Apple lance d’abord ses produits en anglais, mais cela renforce une dynamique que nous observons souvent, où l’anglocentrisme technologique a des conséquences réelles pour les internautes dont la première langue n’est pas la langue dominante ».
Est-ce qu’Apple utilise la fonctionnalité voix personnelle pour influencer la façon dont elle construit ses produits ? Difficile à dire.
Apple est honnête au sujet de cette fonctionnalité et de la protection de la vie privée des utilisateurs. Le guide explicatif d’Apple sur la voix personnelle précise que l’apprentissage de l’IA se fait localement sur votre appareil. L’entreprise précise également que votre empreinte vocale est transférée dans le nuage si vous avez activé la fonction de « partage entre les appareils ». Cela dit, que fait Apple de toutes ces données vocales qu’elle recueille pour recréer votre voix ?
« Votre voix personnelle est protégée localement et dans le cloud, mais, d’après ce que nous avons pu constater, Apple n’a pas parlé des données que vous avez transmises pour former le modèle en premier lieu », explique Em. « Nous savons que la voix synthétisée est stockée localement ou qu’elle est chiffrée de bout en bout si vous la partagez avec d’autres appareils Apple. Qu’en est-il des données vocales utilisées pour entraîner la voix synthétisée ? Où se retrouvent-elles ? Sont-elles continuellement utilisées par Apple ? Apple affirme explicitement pouvoir utiliser vos clips vocaux pour améliorer ses produits et services tels que Siri, il n’est donc pas impossible que ce soit le cas ici.
Quel est l’avenir des fonctions vocales d’IA ?
Pour les utilisateurs qui savent comment trouver la fonction, la voix personnelle d’Apple offre une introduction conviviale au monde de la voix assistée par l’IA. Mais ce n’est qu’un début, d’autant plus qu’elle n’est disponible que dans une seule langue.
L’anglais restera probablement la langue par défaut d’Internet pendant un certain temps. D’après Common Voice, une partie de la solution réside dans le don de données. « Des données de formation plus diversifiées font partie de la solution », explique Em. « Les communautés doivent se réunir et se mobiliser pour créer des ensembles de données. Attendre que les entreprises viennent régler le problème et s’intéressent à leur communauté linguistique n’est pas la bonne solution, car si les entreprises n’y voient pas une viabilité commerciale sérieuse, elles ne s’y intéresseront pas. Il est donc logique que les communautés essaient de résoudre ce problème elles-mêmes et se disent : « nous voulons que la reconnaissance vocale nous soit accessible, nous allons collecter ces données pour nous-mêmes, pour nos communautés et pour les personnes qui parlent notre langue ».
Des clones vocaux sur iPhone ? Ce qu’en pense le projet « Common Voice » de Mozilla
Rédigé par : Xavier Harding
Relu par : Audrey Hingle, Innocent Nwani, Kevin Zawacki, Xavier Harding
Illustration par : Shannon Zepeda