
Naomie Halioua
Co-fondatrice & CRO, Recherche IA

« Un travail de détective qu'on ne devrait pas avoir à faire »
Chaque semaine, je lis des dizaines d'articles de recherche sur l'IA et la conformité réglementaire pour n'en sélectionner qu'un — le plus utile, le plus actionnable, celui qui change vraiment votre regard sur le sujet. Cette semaine, j'ai choisi un article qui ne propose ni nouveau framework ni outil. Il fait quelque chose de plus inconfortable : il interroge les personnes qui font vraiment le travail de conformité, et documente précisément là où les choses échouent.
« Detective Work We Shouldn't Have to Do » : défis pratiques de la qualité des données alignée sur la réglementation dans les systèmes de Machine Learning
Wang, Irion, Groth, Harmouch · arXiv:2602.05944, February 2026
Ce que le paper révèle
Les chercheurs ont interrogé des praticiens de la donnée basés en UE, travaillant sur des systèmes ML dans des industries régulées. Pas des consultants. Pas des académiques. Les personnes qui se lèvent chaque matin en essayant de rendre leurs pipelines de données conformes au RGPD tout en livrant des features dans les délais. Ce qu'ils ont trouvé est un schéma si constant qu'il ressemble presque à un diagnostic.
5 lacunes qui reviennent sans cesse
Principes juridiques vs. workflows d'ingénierie
Le RGPD dit « qualité des données ». Votre data engineer entend « pas de nulls en prod ». Ce n'est pas la même chose — et personne dans l'organisation ne comble l'écart.
Fragmentation des pipelines
La qualité des données est vérifiée à l'ingestion mais se dégrade silencieusement à travers la transformation, l'entraînement et l'inférence. Quand le régulateur pose la question, personne ne peut retracer ce qui s'est passé.
Limites des outils
Les outils existants ont été construits pour l'analytics, pas pour la preuve réglementaire. Ils mesurent la complétude et la cohérence — pas si votre traitement est licite au sens de l'Article 5.
Brouillard de responsabilité
Le juridique possède la conformité. L'engineering possède la donnée. Personne ne possède la qualité des données alignée sur la réglementation. Chacun suppose que quelqu'un d'autre s'en charge.
Culture réactive
La plupart des équipes ne pensent à la qualité des données que quand un audit approche. À ce moment-là, c'est du travail de détective — du reverse-engineering de ce qui s'est passé il y a des mois.
Le détail qui change tout
Les praticiens n'ont pas besoin de plus de réglementation. Ils ont besoin d'outils conscients de la conformité — des outils qui comprennent simultanément l'ingénierie des données et les exigences juridiques, pas des outils qui greffent des checklists juridiques sur des pipelines existants.
Pourquoi ça vous concerne
Vous êtes DPO ou responsable conformité
Votre plus grand risque en qualité des données n'est pas une défaillance technique. C'est l'écart entre ce que vous pensez que votre pipeline fait et ce qu'il fait vraiment. Ce paper vous donne le vocabulaire pour avoir cette conversation avec votre équipe technique.
Vous développez un produit IA
L'Article 10 de l'AI Act (gouvernance des données) est systématiquement classé comme l'exigence la plus difficile à implémenter. Cette recherche vous dit exactement où les autres équipes restent bloquées — pour que vous n'ayez pas à l'apprendre à la dure.
Votre secteur est régulé (santé, finance, énergie, RH)
Si vous ne pouvez pas démontrer la gouvernance de la qualité des données sur l'ensemble de votre pipeline ML — de la collecte à l'inférence — vous êtes exposé. Pas seulement aux amendes, mais à des décisions qui ne peuvent être ni expliquées ni reproduites.
Comment Cleo gère ça
C'est exactement pour cela que nous avons construit Cleo comme nous l'avons fait. Notre pipeline ne vérifie pas la conformité à un instant donné — il trace l'alignement réglementaire sur l'ensemble du cycle de vie des données, produisant des preuves que votre équipe juridique et votre équipe technique peuvent comprendre.
Référence : Wang, Irion, Groth, Harmouch (2026), « Detective Work We Shouldn't Have to Do » : Practitioner Challenges in Regulatory-Aligned Data Quality in ML Systems, arXiv:2602.05944
Questions fréquentes
Qu'est-ce que la qualité des données alignée sur la réglementation ?
La qualité des données alignée sur la réglementation va au-delà des métriques traditionnelles (complétude, cohérence, exactitude). Elle signifie que chaque étape de votre pipeline ML — de la collecte à l'inférence — respecte les exigences légales de réglementations comme le RGPD Article 5 et l'AI Act Article 10, incluant licéité, limitation des finalités et minimisation des données.
Pourquoi les outils de qualité des données existants échouent-ils pour la conformité ?
Les outils de qualité des données existants ont été conçus pour l'analytics et la business intelligence, pas pour produire des preuves réglementaires. Ils mesurent des métriques techniques comme les taux de null et la cohérence de format, mais ne peuvent pas évaluer si le traitement est licite, si le consentement a été correctement obtenu, ou si le principe de minimisation est respecté tout au long du pipeline ML.
Qu'est-ce que l'Article 10 de l'AI Act ?
L'Article 10 de l'AI Act européen fixe les exigences de gouvernance des données pour les systèmes IA à haut risque. Il impose que les jeux de données d'entraînement, de validation et de test respectent des critères de qualité spécifiques incluant pertinence, représentativité et absence d'erreurs. Il est régulièrement classé par les praticiens comme l'une des exigences les plus difficiles à implémenter.
Sources et références
Essayez Cleo : scan de risque réglementaire gratuit
Visualisez votre paysage réglementaire en minutes. Sans inscription, sans CB.