Blog/Produit

Produit2026-06-01·7 min de lecture

Naomie Halioua

Co-fondatrice & CRO, Recherche IA

Cleo tourne désormais sur Claude Opus 4.8 — et nous avons fait l’éval pour le prouver.

MARIA, le moteur derrière Cleo, est passé sur Claude Opus 4.8 d’Anthropic. En conformité produit, le mode d’échec qui fait mal n’est pas une prose maladroite — c’est une régulation citée avec aplomb qui n’existe pas, ou bien réelle mais inapplicable à votre produit. Nous n’avons donc pas pris la mise à jour pour argent comptant. Nous avons fait une éval en tête-à-tête contre le modèle précédent, Opus 4.7, sur cinq cas produit réels, et noté chaque régulation citée contre la source officielle. Opus 4.8 l’emporte sur tous les axes qui comptent pour un verdict de conformité.

Pourquoi une mise à jour de modèle compte spécifiquement en conformité

Un assistant de rédaction juridique peut être jugé sur le ton et la structure. Un moteur de conformité est jugé sur un binaire qui engage de l’argent et de la responsabilité : ce produit peut-il être vendu sur ce marché, et au titre de quelle régulation ? Un numéro de régulation fabriqué, ou un vrai numéro appliqué à la mauvaise catégorie de produit, n’est pas un défaut de style — c’est une réponse fausse sur laquelle une marque pourrait agir.

C’est le même risque que celui décrit dans notre article sur l’IA qui fabrique des régulations. Opus 4.8 est positionné par Anthropic comme leur modèle phare plus honnête, et il signe le meilleur score jamais enregistré sur leur Legal Agent Benchmark — premier modèle à franchir les 10 % sur le standard strict « all-pass ». Notre question était plus étroite : cela se traduit-il par moins de réponses de conformité fausses, sur notre type de tâche ?

L’éval : 5 produits, deux modèles, chaque citation vérifiée

Nous avons choisi cinq cas produit-marché dans les catégories couvertes par Cleo — cosmétiques, jouets, électronique, compléments alimentaires, textile enfant — sélectionnés parce que la bonne réponse repose sur des identifiants précis (un numéro de règlement, une norme EN) qu’un modèle plus faible tend à inventer ou mal appliquer. Nous avons envoyé à chaque modèle le prompt identique, en closed-book (sans retrieval), en demandant un verdict et les régulations applicables. Puis nous avons vérifié chaque identifiant cité contre la source officielle : Légifrance, EUR-Lex, le catalogue de normes CEN.

Métrique (n=5, closed-book)

Opus 4.7

Opus 4.8

Verdict correct vs gold

4 / 5

5 / 5

Sortie structurée valide

4 / 5

5 / 5

Taux d’erreur de citation

9.4%

2.7%

Tokens de sortie moy. (max)

626 (1100)

484 (826)

Opus 4.8 a obtenu tous les verdicts justes, rendu une réponse structurée propre à chaque fois, et cité les régulations avec environ un tiers du taux d’erreur — tout en utilisant moins de tokens. Sur le cas le plus difficile (une enceinte Bluetooth sur secteur, la pile réglementaire la plus dense), Opus 4.7 s’est étendu et a été coupé avant de rendre un verdict exploitable ; Opus 4.8 a rendu une réponse complète et correcte largement dans le budget.

Deux erreurs commises par 4.7 et pas par 4.8

Les échecs intéressants n’étaient pas des numéros inventés — c’étaient de vraies régulations appliquées au mauvais produit. C’est précisément le genre d’erreur qui survit à un coup d’œil humain rapide, parce que la citation a l’air sérieuse.

EN 71-14

Sur un jouet à tirer en plastique, Opus 4.7 a cité EN 71-14 — une norme réelle, mais qui régit les trampolines domestiques. Elle ne s’applique pas à un jouet à tirer.

(EU) 2018/1513

Sur un rouge à lèvres, Opus 4.7 a cité le règlement (UE) 2018/1513 — une vraie restriction CMR, mais qui vise le textile et la chaussure, pas les cosmétiques.

Ce que cela change dans Cleo

Moins de régulations mal appliquées remontées à l’utilisateur, c’est le titre — mais deux gains opérationnels comptent tout autant. Opus 4.8 est le modèle agentique le plus solide testé par Anthropic (84 % sur Online-Mind2Web), avec un tool-calling plus efficace — exactement ce que fait MARIA quand il parcourt Legal Atlas sur 177 juridictions : un retrieval multi-étapes plus fiable, moins d’étapes perdues. Et précision : cette éval était en closed-book, modèle seul. Dans Cleo, le modèle est ancré sur Legal Atlas, ce qui referme l’essentiel de l’écart de citation restant.

Les limites honnêtes de ce test

Cinq cas, c’est illustratif, pas un benchmark à puissance statistique — à lire comme un signal directionnel, pas un classement. C’était un seul run par cas, en closed-book, donc cela mesure la connaissance paramétrique du modèle plutôt que le système ancré complet. Et pour être juste avec 4.7 : sur le cas du complément français, il était en fait plus complet que 4.8 (il incluait l’arrêté du 26 septembre 2016 que 4.8 a omis). Le motif sur l’ensemble restait net — 4.8 plus exact, plus précis sur les citations, plus efficace — c’est pourquoi il est désormais le modèle par défaut derrière MARIA.

« En conformité, un modèle plus honnête sur ce qu’il ignore vaut plus qu’un modèle simplement plus fluide. C’est cette mise à jour qui nous importait — et l’éval, c’est pourquoi nous l’avons déployée. »

— Naomie Halioua, Co-fondatrice & CRO, Recherche IA chez Cleo Labs

Voyez le moteur ancré à l’œuvre — scannez un produit, ou explorez la donnée juridique sous-jacente.

Explorer Legal Atlas →

Méthodologie et chiffres Opus 4.8 : Anthropic (Introducing Claude Opus 4.8). Citations vérifiées contre Légifrance, EUR-Lex et le catalogue de normes CEN.

Questions fréquentes

Qu'est-ce qui a changé — quel modèle Cleo utilise-t-il maintenant ?

MARIA, le moteur derrière Cleo, tourne désormais sur Claude Opus 4.8 d'Anthropic, en remplacement d'Opus 4.7. Opus 4.8 est le modèle phare plus honnête d'Anthropic et signe le meilleur score sur leur Legal Agent Benchmark.

Comment avez-vous mesuré que 4.8 est meilleur que 4.7 ?

Nous avons passé 5 cas de conformité produit×marché dans les deux modèles avec un prompt identique, en closed-book, puis vérifié chaque régulation citée contre la source officielle (Légifrance, EUR-Lex, CEN). Opus 4.8 obtient 5/5 verdicts justes contre 4/5, un taux d'erreur de citation de 2,7 % contre 9,4 %, et utilise moins de tokens. C'est une éval directionnelle (n=5), pas un benchmark à puissance statistique.

Le modèle fabrique-t-il des régulations ?

Les erreurs les plus risquées observées n'étaient pas des numéros inventés mais de vraies régulations appliquées au mauvais produit (ex. une restriction CMR textile citée sur un rouge à lèvres). Opus 4.8 en fait bien moins. Dans Cleo, le modèle est en plus ancré sur Legal Atlas, ce qui referme l'essentiel de l'écart restant.

Ressources associées

IA · 2026-03-10

Et si quelqu'un soumettait un faux texte RGPD à votre IA de conformité ?

Produit · 2026-05-31

Legal Atlas : le droit mondial, lisible par les machines

IA · 2026-03-09

L'IA multi-agents pour la conformité : Ce que dit la Recherche en 2026

Conformité produit · 2026-05-29

Nous avons open-sourcé 40 skills compliance produit pour agents IA

Essayez Cleo : scan de risque réglementaire gratuit

Visualisez votre paysage réglementaire en minutes. Sans inscription, sans CB.

Voir le produit en action

Réserver un créneau

Blog/Produit

Produit2026-06-01·7 min de lecture

Naomie Halioua

Co-fondatrice & CRO, Recherche IA

Cleo tourne désormais sur Claude Opus 4.8 — et nous avons fait l’éval pour le prouver.

Pourquoi une mise à jour de modèle compte spécifiquement en conformité

L’éval : 5 produits, deux modèles, chaque citation vérifiée

Métrique (n=5, closed-book)

Opus 4.7

Opus 4.8

Verdict correct vs gold

4 / 5

5 / 5

Sortie structurée valide

4 / 5

5 / 5

Taux d’erreur de citation

9.4%

2.7%

Tokens de sortie moy. (max)

626 (1100)

484 (826)

Deux erreurs commises par 4.7 et pas par 4.8

EN 71-14

Sur un jouet à tirer en plastique, Opus 4.7 a cité EN 71-14 — une norme réelle, mais qui régit les trampolines domestiques. Elle ne s’applique pas à un jouet à tirer.

(EU) 2018/1513

Sur un rouge à lèvres, Opus 4.7 a cité le règlement (UE) 2018/1513 — une vraie restriction CMR, mais qui vise le textile et la chaussure, pas les cosmétiques.

Ce que cela change dans Cleo

Les limites honnêtes de ce test

— Naomie Halioua, Co-fondatrice & CRO, Recherche IA chez Cleo Labs

Voyez le moteur ancré à l’œuvre — scannez un produit, ou explorez la donnée juridique sous-jacente.

Explorer Legal Atlas →

Méthodologie et chiffres Opus 4.8 : Anthropic (Introducing Claude Opus 4.8). Citations vérifiées contre Légifrance, EUR-Lex et le catalogue de normes CEN.

Questions fréquentes

Qu'est-ce qui a changé — quel modèle Cleo utilise-t-il maintenant ?

Comment avez-vous mesuré que 4.8 est meilleur que 4.7 ?

Le modèle fabrique-t-il des régulations ?

Ressources associées

IA · 2026-03-10

Et si quelqu'un soumettait un faux texte RGPD à votre IA de conformité ?

Produit · 2026-05-31

Legal Atlas : le droit mondial, lisible par les machines

IA · 2026-03-09

L'IA multi-agents pour la conformité : Ce que dit la Recherche en 2026

Conformité produit · 2026-05-29

Nous avons open-sourcé 40 skills compliance produit pour agents IA

Essayez Cleo : scan de risque réglementaire gratuit

Visualisez votre paysage réglementaire en minutes. Sans inscription, sans CB.

Voir le produit en action

Réserver un créneau