Das Data Futures Lab begrüßt seine Preisträger des Infrastructure Fund 2024
(MITTWOCH, 13. MÄRZ 2024) — Heute verkündet Mozilla die Preisträger des Infrastructure Fund 2024 des Data Futures Lab: Fünf ehrgeizige Projekte, die Werkzeuge entwickeln, um Fragen der Transparenz, Privatsphäre, Voreingenommenheit und Kontrolle im Datenlebenszyklus anzugehen.
Diese Projekte erhalten jeweils bis zu 50.000 US-Dollar sowie Unterstützung und Schulung von Mozilla-Mitarbeitern und Stipendiaten. Mozilla veröffentlichte im Juli 2023 einen offenen Aufruf für die Preisträger und erhielt mehr als 250 Bewerbungen aus 54 Ländern.
Als experimenteller Raum für Entwickler, die auf eine fairere Datenwirtschaft hinarbeiten, ist das Data Futures Lab der perfekte Ort für diese Projekte, um Tools und Methoden zu entwickeln und zu veröffentlichen, die von Entwicklern genutzt werden können. Alle Projekte werden ihren Code in einem öffentlichen Repository zur Verfügung stellen.
Lisa Gutermuth, Program Officer, Data Futures Lab: „Die diesjährige Gruppe des Infrastructure Fund zeichnet sich durch eine vielfältige Mischung an Fachwissen aus – genau das, was wir brauchen, um das Datenökosystem in eine neue und bessere Richtung zu lenken. Mozilla fördert Forscher und Unternehmer, Programmierer und Aktivisten sowie Gemeinschaften, die an Sprach-, Text- und synthetischen Daten arbeiten, im Zusammenhang mit vertrauenswürdiger KI.“
Diese Projekte werden dem bestehenden Netzwerk von Preisträgern und Stipendiaten von Mozilla beitreten, die ein gerechteres Datenökosystem anstreben - wie zum Beispiel der Mozilla Technology Fund Preisträger Evaluation Harness, ein Open-Source-Tool zur Bewertung großer Sprachmodelle, und Bogdana Rakova, eine Senior Fellow Alumna im Bereich Trustworthy AI, die die Nutzung von rechnergestützten Verträgen zur Ermöglichung neuer Interaktionsformen zwischen Menschen und Verbrauchertechnologieunternehmen erforscht.
Die diesjährige Gruppe des Infrastrukturfonds zeichnet sich durch eine vielfältige Mischung an Fachwissen aus – genau das, was wir brauchen, um das Datenökosystem in eine neue und bessere Richtung zu lenken.
Lisa Gutermuth, Program Officer, Data Futures Lab
Weitere Infos zu den Projekten:
Data Provenance Initiative: Zuordnung der Herkunft beliebter Datensätze
USA
Jüngste Durchbrüche in der Sprachmodellierung werden durch große Sammlungen von natürlichen Sprachdatensätzen angetrieben. Dies hat ein Wettrennen ausgelöst, Modelle auf unterschiedlichen Sammlungen von falsch, mehrdeutig oder unzureichend dokumentierten Daten zu trainieren, was Praktiker in Bezug auf die ethischen und rechtlichen Risiken verunsichert hat. Um dies zu beheben, hat die Data Provenance Initiative eine Zuordnung von über 2.000 beliebten, Text-zu-Text-Feinabstimmungsdatensätzen von der Herkunft bis zur Erstellung erstellt, ihre Datenquellen, Lizenzen, Ersteller und andere Metadaten katalogisiert, damit Forscher und Entwickler dieses Tool erkunden können. Der Zweck dieser Arbeit besteht darin, die Transparenz, Dokumentation und informierte Nutzung von Datensätzen in der KI zu verbessern.
Sehen Sie sich ihre Präsentationsaufzeichnung als Teil der DFL Speaker Series im Januar 2024 an.
Imperial College London: Identifizierung von Datenschutzrisiken in von KI erzeugten synthetischen Daten
Vereinigtes Königreich
Die Computational Privacy Group am Imperial College London wird auf ihrer ursprünglichen Forschung zur Erkennung von Datenschutzrisiken in von KI erzeugten synthetischen Datensätzen aufbauen und ein Open-Source-Toolkit veröffentlichen, das Entwicklern ermöglicht, das Datenschutzrisiko von von KI erzeugten synthetischen Daten zu bewerten, bevor sie diese freigeben. Die Initiative trägt den Titel „Niemanden zurücklassen: Ein Tool zur Kennzeichnung von Datenschutzrisiken in von KI erzeugten synthetischen Daten.“
Fundación Vía Libre: Erkennung diskriminierender Verhaltensweisen in der KI
Argentinien
Die Fundación Vía Libre wird auf ihrem bestehenden Toolset EDIA (spanische Abkürzung für „Stereotypen und Diskriminierung in der Künstlichen Intelligenz“) aufbauen, das Kernkomponenten von automatischen Sprachverarbeitungstechnologien untersucht, um diskriminierende Verhaltensweisen zu erkennen und zu charakterisieren. Insbesondere werden sie gemeinschaftszentrierte Methoden verwenden, um einen Sprachdatensatz zu erstellen, der Stereotypen in Argentinien repräsentiert; Programmierbibliotheken veröffentlichen, um den Datensatz in Auditprozesse für öffentliche und private Institutionen zu integrieren, die Sprachmodelle verwenden; und strukturierte Inhalte und Lehrmaterialien veröffentlichen, damit andere ihre Methoden für andere Sprachen und Kontexte replizieren können.
Sehen Sie sich ihre Präsentationsaufzeichnung bei einem DFL Community Call im Juli 2023 an
Data Science Law Lab: Entwicklung einer verantwortungsbewussteren Datenlizenz
Südafrika
Das Data Science Law Lab der Universität Pretoria wird eine Forschung durchführen, die sich mit den Schwächen der Verwendung von Creative-Commons-Lizenzen in bestimmten Kontexten (wie der Verstärkung von extraktiven Praktiken und digitalem Kolonialismus) auseinandersetzt. Basierend auf ihren Erkenntnissen werden sie einen Prototyp für eine neue Datenlizenz erstellen.
Melden Sie sich für ihren Vortrag im Rahmen derDFL Speaker Series an, die in der ersten Hälfte des Jahres 2024 läuft und die faire Nutzung und Transparenz im generativen KI-Datenökosystem erforscht.
FLAIR-Initiative (First Languages AI Reality): Gemeinschaftszentrierte Datensatzerstellung
USA (indigene Gemeinschaften)
FLAIR wird mit einer indigenen Sprachgemeinschaft zusammenarbeiten und ihre Software und Methodik nutzen, um die notwendigen Korpusdaten zu sammeln und eine automatische Spracherkennung (ASR) für die Sprache der Gemeinschaft zu entwickeln, während die Belastung der aktuellen Sprecher minimiert wird. Angesichts der Begrenzung sowohl der Verfügbarkeit von Daten in indigenen Sprachen als auch der Sprecher werden sie eine Methode anwenden, die minimale Eingaben (etwa 500 Phrasen) als Stimuli verwendet. Sie werden den Quellcode und ein Methodenhandbuch veröffentlichen, das darauf abzielt, weiteren indigenen Sprachgemeinschaften zu ermöglichen, ihre Sprachen schneller und effektiver zu revitalisieren, indem sie ihre eigenen Daten verwenden und nach ihren eigenen Bedingungen handeln.
Pressekontakt: Kevin Zawacki | [email protected]