Image principale

Rendre l’IA plus concrète : l’évaluation au cœur de la thématique de l’IA en 2025

Roya Pakzad, boursière Mozilla 2025

Qu’il s’agisse d’innovations révolutionnaires ou de visions ambitieuses, nos boursiers 2025 nous livrent leurs prévisions sur l’évolution de la technologie et son éventuel impact sur le monde.

Voir la liste complète →

En 2025, le paysage de l’IA connaîtra une transformation indispensable, abandonnant l’enthousiasme pour les fonctionnalités générales pour se concentrer sur l’évaluation des performances dans le monde réel et dans des domaines spécifiques. Si ces dernières années ont été largement consacrées à la célébration du potentiel de l’IA générative et des grands modèles de langage, la prochaine phase exigera des réponses concrètes : dans quelle mesure ces systèmes sont-ils efficaces pour accomplir des tâches spécifiques dans des domaines tels que la santé, les services gouvernementaux, les crises humanitaires ou la modération du contenu des réseaux sociaux ?

Actuellement, la plupart des tests évaluent l’IA sur des tâches statiques (telles que la réponse à des questions ou la classification d’images) avec des ensembles de données prédéfinis. Toutefois, ces tests ne parviennent pas à refléter la complexité des applications dans le monde réel. Par exemple, un modèle linguistique peut donner de bons résultats lors d’un test standard, mais échouer lorsqu’il est testé dans d’autres langues que l’anglais ou dans des contextes divers, où la compréhension des nuances linguistiques subtiles ou la connaissance des normes sociétales sont des facteurs déterminants pour la compréhension. À mesure que les systèmes d’IA deviennent plus « agentiques », qu’ils font appel à la mémoire, au raisonnement, aux actions et à l’intégration d’outils tiers, les méthodes d’évaluation traditionnelles se révèlent insuffisantes. Un agent d’IA peut-il gérer de manière égale des demandes dans des langues et des contextes culturels différents ? Comment réagira-t-il à des scénarios imprévisibles dans le cadre de la gestion de crise ou des services publics ? Ces questions exigent des approches d’évaluation sociotechnique plus nuancées et une réflexion nouvelle sur les tests de performance.

Mon projet en tant que boursière, intitulé Equitable AI Benchmarking for Linguistic Diversity (Évaluation comparative équitable de l’IA pour la diversité linguistique), s’attaque de front à ces lacunes. Cette plateforme web ouverte harmonise les pratiques d’évaluation comparative de l’IA afin de mieux servir les communautés non anglophones, en particulier celles qui sont les plus vulnérables aux préjudices causés par l’IA. En créant des données et des pratiques d’évaluation comparative nuancées sur le plan contextuel et linguistique, en collaboration avec des organisations représentant la société civile, le projet permet de procéder à des évaluations qui reflètent la réalité des communautés marginalisées. Il reconnaît que les critères habituels, souvent créés par des entreprises privées ou des institutions universitaires, n’intègrent pas suffisamment de données provenant des communautés les plus impactées par la technologie.

Des développements récents soulignent l’urgence de ce travail. Les principaux laboratoires d’IA, les agences gouvernementales et les organisations philanthropiques étudient activement de nouvelles méthodologies pour combler les lacunes des systèmes d’évaluation actuels. Les grandes conférences sur l’IA, telles que NeurIPS, organisent désormais des ateliers consacrés à l’examen minutieux des lacunes des évaluations comparatives existantes et à la recherche de nouvelles approches participatives, davantage axées sur les communautés, pour tester les systèmes d’IA.

Alors que les systèmes d’IA gagnent en complexité, leur évaluation doit évoluer en conséquence. 2025 sera l’année qui verra émerger des cadres d’évaluation, des techniques et des critères de référence plus nuancés qui permettront de dissiper le battage médiatique autour des capacités de l’IA générative et de les rendre plus concrètes.

Photo de Roya Pakzad

Roya Pakzad est boursière Mozilla 2025.

Qu’il s’agisse d’innovations révolutionnaires ou de visions ambitieuses, nos boursiers 2025 nous livrent leurs prévisions sur l’évolution de la technologie et son éventuel impact sur le monde.

Voir la liste complète →