Jeśli obserwujesz Mozillę na TikToku, prawdopodobnie wiesz, że iOS 17 na iPhonie pozwala teraz sklonować Twój głos. Funkcja jest tak samo niesamowita, jak i fajna - niesamowita, ponieważ kopia Twojego głosu może teraz żyć w Twoim telefonie. Ale też fajna, ponieważ Ci, którzy stracili zdolność mówienia, mogą korzystać z tej funkcji do komunikowania się na głos za pomocą aplikacji swojego telefonu.

W Mozilla Foundation wiemy co nieco o głosie i sztucznej inteligencji. Projekt Common Voice Mozilli ma na celu poprawę rozpoznawania mowy, aby była bardziej wielojęzyczna i inkluzywna. Codziennie osoby takie jak Ty mogą przekazywać próbki audio swojego głosu tutaj, a następnie osoby tworzące systemy sztucznej inteligencji mogą korzystać z zestawu danych, aby upewnić się, że ich produkty głosowe reprezentują i rozumieją głosy słyszane na całym świecie.

Nic dziwnego, że ludzie w Common Voice eksperymentują z nową funkcją głosową Apple i mają przemyślenia. Em Lewis-Jong jest dyrektorem produktu Common Voice - oto, co wzbudziło jego nadzieję i zmartwienia funkcją Personal Voice na iOS 17.

Co jest świetnego w funkcji Personal Voice iOS 17?

Łatwo zapomnieć, jak imponujące jest to, że wielu ludzi chodzi z superkomputerem w kieszeni. Podobnie łatwo jest wziąć za pewnik, jak imponująca jest funkcja taka jak Personal Voice w iOS 17. „Nawet pięć lat temu zrobienie tego na urządzeniu i uzyskanie takiej jakości nie byłoby możliwe” - mówi Em. „To niesamowite, że rozwiązanie Apple wymaga tylko 150 wypowiedzi - jest to krok naprzód w stosunku do wszystkiego, co widziałem”.

Być może bardziej imponujące od technologii są jej rzeczywiste zastosowania. Korzyści płynące z funkcji Personal Voice firmy Apple w zakresie ułatwień dostępu nie mogą być bagatelizowane. Znacznie poprawia to, co było wcześniej dostępne. Em wskazuje na przykład, który zobaczyła za pośrednictwem Common Voice: „Kiedy po raz pierwszy dołączyłem do Common Voice, słuchanie różnych aplikacji do przekształcania tekstu na mowę było naprawdę ekscytujące” - mówi Em. „Wśród nich był profesor, który stracił głos z powodu choroby, ale naprawdę chciał kontynuować wykład własnym głosem. W takich przypadkach uważam, że takie narzędzia są naprawdę ekscytujące”.

Co martwi Cię w funkcji Personal Voice iOS 17?

Ta funkcja jest dostępna tylko w języku angielskim. Oto dlaczego jest to problem

Pod wieloma względami angielski jest językiem Internetu - 64% stron internetowych używa angielskiego jako swojego podstawowego języka. Podobnie firmy technologiczne często najpierw wydają swoje produkty w języku angielskim. Przykład: funkcja Personal Voice firmy Apple. Zaprojektowany w Kalifornii Personal Voice na iOS 17 jest dostępny tylko w pierwszym języku Apple.

Dzięki ponad 100 językom Common Voice stara się zmniejszyć zależność Internetu od angielskiego. Według Em dane o mowie angielskiej były łatwe do znalezienia, z danymi o głosach angielskich z akcentami niedominującymi było już trudniej, a w przypadku języków ze społeczności o niskich zasobach bardzo trudno.

„To naprawdę błędne koło” – mówi Em. „Internet jest w zasadzie w kilku językach, więc następne pokolenie komunikuje się głównie online, używając drugiego lub trzeciego języka – angielskiego, hiszpańskiego, francuskiego – podczas gdy język ich dziadków staje się coraz bardziej zapomniany. To normalne i naturalne, że Apple wprowadza najpierw język angielski, ale często wzmacnia dynamikę, w której anglocentryzm technologii ma realne konsekwencje dla użytkowników Internetu, których język ojczysty nie jest językiem dominującym”.

Czy Apple korzysta z Personal Voice, aby wpływać na sposób, w jaki buduje swoje produkty? Niejasne.

Apple jest stawia na tę funkcję i prywatności użytkowników. Wyjaśniacz Apple w Personal Voice zauważa, że wyuczanie sztucznej inteligencji odbywa się lokalnie na Twoim urządzeniu. Firma informuje również o tym, że Twój wydruk głosu wiąże się z chmurą, jeśli masz włączone „udostępnianie między urządzeniami”. A więc co Apple robi najpierw z tymi wszystkimi danymi głosowymi, które zbiera, aby wyuczać Twój głos?

„Twój osobisty głos jest chroniony lokalnie i w chmurze, ale z tego, co widziałem, Apple nie mówi nic o danych, które przekazujesz do wyuczenia modelu” - mówi Em. „Wiemy, że głos syntezatorowy jest przechowywany lokalnie lub jest szyfrowany w całości, jeśli udostępniasz go między urządzeniami Apple. Co z danymi głosowymi używanymi do wyuczania głosu syntezatorowego? Dokąd to zmierza? Czy w ogóle jest stale używany przez Apple? Apple wyraźnie mówi, że może wykorzystać Twoje klipy mowy do ulepszania swoich produktów i usług do takich celów jak Siri, więc nie byłoby fałszywym założeniem myśleć, że właśnie to mogą tutaj robić”.

Dokąd zmierzamy dzięki funkcjom głosowym ze sztuczną inteligencją?

Dla tych, którzy wiedzą, gdzie znaleźć tę funkcję, Apple Personal Voice oferuje przyjazne dla użytkownika wprowadzenie do świata wokali opartych na sztucznej inteligencji. Ale to tylko początek, zwłaszcza, że jest dostępny tylko w jednym języku.

Język angielski będzie prawdopodobnie domyślnym językiem Internetu przez jakiś czas. Zapytaj w Common Voice, a powiedzą, że częścią rozwiązania jest przekazanie danych. „Bardziej zróżnicowane dane wyuczania są częścią rozwiązania tego problemu” - mówi Em. „Społeczności muszą się zebrać i zmobilizować, aby stworzyć zestawy danych. Czekanie, aż firmy przyjdą, naprawią to i zainteresują się swoją społecznością językową, nie jest dobrym pomysłem - ponieważ jeśli firmy nie widzą poważnej komercyjnej rentowności, często tam nie pójdą. Tak więc naprawdę zasadne jest, aby społeczności próbowały same rozwiązać ten problem i powiedziały: „W porządku, chcemy, aby rozpoznawanie mowy działało na naszą korzyść, będziemy zbierać te dane dla nas samych, dla naszych społeczności i dla ludzi, którzy mówią naszym językiem”.

Klony głosowe na iPhone'ach? Common Voice Mozilli ma przemyślenia

Autor: Xavier Harding

Redakcja: Audrey Hingle, Innocent Nwani, Kevin Zawacki, Xavier Harding

Grafika: Shannon Zepeda


Podobne