Data Futures Lab da la bienvenida a los beneficiarios del Fondo de Infraestructura 2024

(MIÉRCOLES, 13 DE MARZO DE 2024) — Hoy Mozilla anuncia a los beneficiarios 2024 del Fondo de Infraestructura de Data Futures Lab: cinco ambiciosos proyectos para desarrollar herramientas que abordan cuestiones relacionadas con la transparencia, la privacidad, los sesgos y la agentividad en el ciclo de vida de los datos.

Cada uno de estos proyectos recibirá hasta 50.000 dólares, más el apoyo y la capacitación del personal y los becarios de Mozilla. En julio de 2023, Mozilla lanzó una convocatoria abierta y recibió más de 250 solicitudes provenientes de 54 países.

Al tratarse de un espacio experimental abierto a quienes trabajan en pos de una economía de datos más justa, Data Futures Lab es el lugar perfecto para que estos proyectos creen y lancen herramientas y métodos que puedan ser aprovechados por los desarrolladores. Todos los proyectos brindarán acceso a su código en un repositorio público.

Lisa Gutermuth, Oficial de Programas de Data Futures Lab, comenta: «La cohorte del Fondo de Infraestructura de este año presenta una mezcla ecléctica de experiencias, que es exactamente lo que necesitamos para cambiar el ecosistema de datos y llevarlo hacia una nueva dirección más positiva. Mozilla está financiando a investigadores, empresarios, programadores, activistas y comunidades que trabajan con datos sintéticos y de voz y texto en su relación con una IA confiable».

Estos proyectos se unirán a la red existente de becarios y beneficiarios de Mozilla que tienen el objetivo común de lograr un ecosistema de datos más equitativo; como Evaluation Harness, uno de los beneficiarios del Fondo Tecnológico de Mozilla que consiste en una herramienta de código abierto dedicada a evaluar grandes modelos de lenguaje, o la exbecaria del área de IA confiable, Bogdana Rakova, que explora el uso de contratos informáticos para permitir nuevos modos de interacción entre las personas y las empresas de tecnologías de consumo.

La cohorte del Fondo de Infraestructura de este año presenta una mezcla ecléctica de experiencias, que es exactamente lo que necesitamos para cambiar el ecosistema de datos y llevarlo hacia una nueva dirección.

Lisa Gutermuth, Oficial de Programas, Data Futures Lab

Más información sobre los proyectos:

Iniciativa Data Provenance: Mapeo de la procedencia de sets de datos populares

EE. UU.

Los avances recientes en el modelado del lenguaje están impulsados por grandes colecciones de sets de datos de lenguaje natural. Esto ha desencadenado una carrera armamentista para entrenar modelos con diversas colecciones de datos incorrectos, ambiguos o poco documentados, que han dejado a los profesionales inseguros de los riesgos éticos y legales implicados. Para abordar esto, la Iniciativa de Procedencia de Datos ha creado el mapeo de más de 2000 sets de datos populares de texto a texto, desde el origen hasta la creación, mediante el catálogo de sus fuentes de datos, licencias, creadores y otros metadatos, para que los investigadores y desarrolladores puedan explorarlos con esta herramienta. El propósito de este proyecto es mejorar la transparencia, la documentación y el uso informado de sets de datos para la IA.

Mira la grabación de su presentación como parte de la serie de oradores de DFL en enero de 2024.

Imperial College de Londres: Identificación de riesgos de privacidad en datos sintéticos generados por IA

Reino Unido

El Grupo de Privacidad Computacional del Imperial College London desarrollará su investigación inicial sobre la detección de riesgos de privacidad en los sets de datos sintéticos generados por IA y publicará un kit de herramientas de código abierto que permita a los desarrolladores evaluar los riesgos de privacidad de los datos sintéticos generados por IA antes de publicarlos. La iniciativa se titula «Nadie queda detrás: Una herramienta para señalar riesgos de privacidad en datos sintéticos generados por IA» (Leaving no one behind: a tool to flag privacy risk in AI generated synthetic data).

Fundación Vía Libre: Detección de conductas discriminatorias en IA

Argentina

La Fundación Vía Libre desarrollará su conjunto de herramientas existente, EDIA (Estereotipos y Discriminación en Inteligencia Artificial), que inspecciona los componentes centrales de las tecnologías de procesamiento automático del lenguaje con el fin de detectar y caracterizar comportamientos discriminatorios. Específicamente, utilizarán métodos centrados en la comunidad para construir un set de datos lingüísticos que represente estereotipos en Argentina; publicarán bibliotecas de programación para integrar el set de datos en procesos de auditoría para instituciones públicas y privadas que utilizan modelos lingüísticos, y publicarán contenidos estructurados y materiales didácticos para que otros puedan replicar sus métodos en otros idiomas y contextos.

Mira la grabación de su presentación en una convocatoria comunitaria de DFL en julio de 2023

Data Science Law Lab: Diseñar una licencia de datos más responsable

Sudáfrica

El Data Science Law Lab de la Universidad de Pretoria llevará a cabo una investigación para abordar las deficiencias de usar licencias de Creative Commons en ciertos contextos (como el refuerzo de prácticas extractivistas y el colonialismo digital), y creará el prototipo de una nueva licencia de datos basada en sus hallazgos.

Inscríbete en su charla que forma parte de laserie de oradores de DFL que se desarrollará durante la primera mitad de 2024 y explorará usos justos y transparencia en el ecosistema de datos de la IA generativa.

Iniciativa FLAIR (First Languages AI Reality): Creación de sets de datos centrados en la comunidad

EE. UU. (comunidades indígenas)

FLAIR trabajará con una comunidad lingüística indígena utilizando su software y su metodología para recopilar los datos de corpus necesarios para desarrollar el reconocimiento automático del habla (ASR) del idioma de la comunidad y minimizar la carga para los hablantes actuales. Dadas las limitaciones tanto de datos disponibles de la lengua indígena como de hablantes, emplearán un método que utiliza entradas mínimas (alrededor de 500 frases) como estímulos. Publicarán el código fuente y un manual de metodología, con el objetivo de permitir que más comunidades de lenguas indígenas revitalicen sus idiomas de manera más rápida y efectiva, utilizando sus propios datos y en sus propios términos.

Contacto de prensa: Kevin Zawacki | [email protected]