Le Data Futures Lab présente ses lauréats du fonds de soutien aux infrastructures pour l’année 2024
(MERCREDI 13 MARS 2024) - Mozilla annonce aujourd’hui les lauréats de son fonds de soutien aux infrastructure Data Futures Lab 2024 : cinq projets ambitieux visant à créer des outils destinés à apporter des solutions aux problèmes de transparence, de confidentialité, de préjugés et de responsabilité dans le cycle de vie des données.
Ces projets se verront attribuer jusqu’à 50 000 dollars chacun, ainsi qu’un accompagnement et une formation assurés par des collaborateurs et des boursiers Mozilla. Mozilla a lancé un appel à candidatures en juillet 2023 et a reçu plus de 250 candidatures provenant de 54 pays.
Conçu comme une plate-forme expérimentale pour les créateurs qui œuvrent en faveur d’une économie des données plus équitable, le Data Futures Lab est tout indiqué pour permettre à ces projets de mettre au point et de diffuser des outils et des méthodes pouvant être utilisés par les développeurs. Tous les projets mettront leur code à disposition dans un référentiel accessible au public.
Lisa Gutermuth, responsable du programme Data Futures Lab, a déclaré : « La cohorte du fonds de soutien aux infrastructures de cette année est composée d’un mélange éclectique d’expertises, ce qui est exactement ce dont nous avons besoin pour faire évoluer l’écosystème des données dans une direction nouvelle et plus favorable. Mozilla soutient des chercheurs et des entrepreneurs, des programmeurs et des activistes, ainsi que des communautés travaillant sur des sujets tels que la voix, le texte et les données synthétiques dans le cadre d’une IA digne de confiance ».
Ces projets rejoindront le réseau de lauréats et de boursiers Mozilla qui œuvrent pour un écosystème de données plus équitable, comme Evaluation Harness, un outil open-source permettant d’évaluer de grands modèles de langage, lauréat du Mozilla Technology Fund, et Bogdana Rakova, ancienne boursière dans le domaine de l’IA digne de confiance, qui se penche sur l’utilisation de contrats informatiques pour permettre de créer de nouveaux modes d’interaction entre les utilisateurs et les entreprises de technologie destinées au grand public.
La cohorte du fonds de soutien aux infrastructures de cette année est composée d’un mélange éclectique d’expertise, ce qui est exactement ce dont nous avons besoin pour faire évoluer l’écosystème des données dans une direction nouvelle et plus favorable.
Lisa Gutermuth, chargée de programme, Data Futures Lab
En savoir plus sur les projets :
Data Provenance Initiative : cartographie de la provenance des ensembles de données populaires
États-Unis
Les récentes innovations en matière de modélisation linguistique s’appuient sur de vastes collections d’ensembles de données en langage humain. Cette évolution a provoqué une course aux armements qui a eu pour conséquence d’entraîner des modèles sur des ensembles disparates de données incorrectes, ambiguës ou insuffisamment documentées, laissant les praticiens dans l’incertitude quant aux risques déontologiques et légaux. Pour remédier à cette situation, le projet Data Provenance Initiative a créé une cartographie de plus de 2 000 ensembles de données populaires de mise au point de texte à texte, de l’origine à la création, cataloguant leurs sources de données, leurs licences, leurs créateurs et d’autres métadonnées, afin que les chercheurs et les développeurs puissent les explorer à l’aide de cet outil. L’objectif de ce projet est de renforcer la transparence, la documentation et l’utilisation avisée des ensembles de données dans le domaine de l’intelligence artificielle.
Regardez la présentation enregistrée lors du DFL Speaker Series en janvier 2024.
Imperial College London : identifier les risques pour la vie privée liés aux données synthétiques générées par l’IA
Royaume-Uni
Le Computational Privacy Group de l’Imperial College London poursuivra ses recherches initiales sur la détection des risques pour la vie privée dans les ensembles de données synthétiques générés par l’IA et publiera un ensemble d’outils open-source permettant aux créateurs d’évaluer les risques pour la vie privée liés aux données synthétiques générées par l’IA avant de les diffuser. Le projet s’intitule « Leaving no one behind : a tool to flag privacy risk in AI generated synthetic data » (Personne ne doit être oublié : un outil permettant de détecter les risques d’atteinte à la vie privée dans les données synthétiques générées par l’IA).
Fundación Vía Libre : détecter les comportements discriminatoires de l’IA
Argentine
La Fundación Vía Libre s’appuiera sur son ensemble d’outils existant, EDIA (abréviation espagnole de « Stéréotypes et discrimination de l’intelligence artificielle »), qui analyse les principaux composants des technologies de traitement automatique des langues afin de détecter et de caractériser les comportements discriminatoires. Plus précisément, les chercheurs utiliseront des méthodes axées sur les communautés pour créer un ensemble de données linguistiques représentant les stéréotypes en Argentine ; ils publieront des bibliothèques de programmation pour intégrer l’ensemble de données dans les processus d’audit des institutions publiques et privées qui utilisent des modèles linguistiques ; et ils publieront un contenu structuré et du matériel didactique pour permettre à d’autres de reproduire leurs méthodes pour des langues et des contextes différents.
Regardez la présentation enregistrée dans le cadre d’une conférence au DFL en juillet 2023
Data Science Law Lab : élaborer des licences d’utilisation de données plus responsables
Afrique du Sud
Le Data Science Law Lab de l’université de Pretoria mène des recherches sur les limites de l’utilisation des licences Creative Commons dans certains contextes (comme le renforcement des pratiques d’extraction et du colonialisme numérique) et conçoit un prototype de nouvelle licence de données sur la base de ses conclusions.
Inscrivez-vous à leur conférence dans le cadre du DFL Speaker Series, qui se poursuit tout au long du premier semestre de 2024 et se penche sur les questions de l’utilisation équitable et de la transparence dans l’écosystème des données d’IA générative.
FLAIR Initiative (First Languages AI Reality) : créer des ensembles de données axés sur la communauté
États-Unis (communautés autochtones)
Le projet FLAIR collabore avec des communautés parlant des langues autochtones en utilisant son logiciel et sa méthodologie pour collecter les corpus de données nécessaires au développement de la reconnaissance automatique de la parole (ASR, Automatic Speech Recognition) pour la langue de la communauté, tout en réduisant le plus possible la charge de travail des locuteurs actuels. Compte tenu des insuffisances en termes de ressources linguistiques autochtones et de locuteurs, les chercheurs emploieront une méthode qui utilise des entrées limitées (environ 500 phrases) en guise de stimuli. Ils publieront le code source et un manuel méthodologique afin de permettre à d’autres communautés parlant des langues autochtones de revitaliser leurs langues plus rapidement et plus efficacement, en utilisant leurs propres données et selon leurs propres conditions.
Contact presse : Kevin Zawacki | [email protected]