Méthodologie

Le HAAS-Score : 6 dimensions, entièrement reproductible

Chaque système IA que nous évaluons reçoit un Helvetic AI Assurance Score (HAAS) sur 6 dimensions. Chaque dimension est notée de 0 à 100 avec intervalles de confiance. Les résultats de benchmark détaillés et la documentation méthodologique sont livrés avec chaque mandat, afin que vous puissiez vérifier chaque résultat de manière indépendante.

Cadre de notation

6 dimensions d’évaluation

Performance (incl. taux d’hallucination)

Complétude des tâches, exactitude factuelle, détection des hallucinations. Des scénarios spécifiques au domaine issus de Swiss-Bench testent la performance réelle, pas des benchmarks génériques.

Robustesse

Entrées adversariales, résistance aux injections de prompt, tests de stress. Comment le modèle se comporte-t-il face aux cas limites et aux conditions adversariales ?

Sécurité

Détection des hallucinations, identification de citations fabriquées, évitement des sorties nuisibles. Teste si les modèles inventent des références juridiques suisses ou produisent des orientations réglementaires trompeuses.

Conformité

Conformité technique EU AI Act via 29 benchmarks Compl-AI (ETH Zurich). Scoring automatisé sur les articles applicables et les exigences techniques de gouvernance des systèmes d’IA.

Langue suisse

Compétence multilingue en allemand, français et italien. Précision linguistique MMLU-ProX et qualité de traduction suisse. Comment le modèle gère-t-il les trois langues officielles de la Suisse ?

Documentation

Qualité de l’analyse des lacunes réglementaires — capacité des modèles à identifier les différences entre la réglementation européenne et les exigences spécifiques suisses (FINMA, nLPD). Teste le raisonnement structuré sur les cadres réglementaires.

Stack technologique

Trois couches de technologie d’évaluation

Inspect AI (licence MIT, UK AI Safety Institute)

Le framework d’évaluation adopté par Anthropic et Google DeepMind. Fournit l’infrastructure pour des évaluations de modèles reproductibles à grande échelle. Plus de 100 tâches d’évaluation intégrées avec une architecture éprouvée pour le testing systématique d’IA.

Compl-AI (Apache 2.0, ETH Zurich / INSAIT)

29 benchmarks projetés sur 6 principes EU AI Act couvrant 18 exigences techniques. Fournit le scoring de conformité réglementaire. Méthodologie publiée (ArXiv : 2410.07959).

Swiss-Bench (propriétaire)

436 scénarios d’évaluation spécifiques à la Suisse couvrant 11 tâches. Teste la compréhension de l’allemand, du français et de l’italien sur des tâches spécifiques au domaine. Détecte les confusions de juridiction, les erreurs de compréhension de l’allemand administratif, l’obsolescence temporelle et les incohérences interlinguistiques.

Fondement scientifique

Méthodologie revue par les pairs

Chaque choix méthodologique de notre système d’évaluation repose sur la recherche peer-reviewed. Notre évaluation de l’exactitude des citations suit Asai et al. (Nature, 2026) — la même étude qui a montré que GPT-4o hallucine les citations dans 78–90% des cas. C’est pourquoi nous évaluons la justesse des citations juridiques comme dimension de scoring dédiée.

Notre cartographie de conformité réglementaire adapte le framework Compl-AI (ETH Zurich, ArXiv : 2410.07959), reconnu par l’OCDE. Notre philosophie d’évaluation holistique suit HELM (Stanford CRFM, peer-reviewed dans TMLR). L’évaluation de la traduction juridique suisse s’appuie sur la méthodologie validée par Niklaus et al. (EMNLP 2023, ACL 2025) couvrant plus de 180’000 paires de traduction juridiques suisses.

Nous préparons actuellement un article scientifique pour publication peer-reviewed qui détaille notre méthodologie d’évaluation complète, le processus de vérification par des experts et le cadre statistique. Notre vérification de la vérité terrain suit MMLU-Redux (Gema et al., NAACL 2025), qui a découvert un taux d’erreur de 9% dans les benchmarks largement utilisés. Notre protocole d’annotation par des experts est modelé sur CUAD (Hendrycks et al., NeurIPS 2021) et LegalBench (Guha et al., NeurIPS 2023). Au total, notre méthodologie s’appuie sur plus de 40 publications peer-reviewed.

Résultat clé (Asai et al., Nature, 2026) : Lorsque les LLMs citent des articles de loi, des règlements ou de la jurisprudence, ils fabriquent les références dans 78–90% des cas. Notre méthodologie de scoring évalue explicitement la précision, le rappel et l’exactitude des citations — pas seulement si la réponse semble plausible.

Reproductibilité

Chaque résultat est reproductible

Vous recevez les résultats de benchmark détaillés et la documentation méthodologique avec chaque mandat : fichiers de configuration, valeurs de seed, jeux de données de benchmark et scripts de notation. Vous pouvez vérifier chaque résultat de manière indépendante, sur votre propre infrastructure.

Ce n’est pas une opinion. C’est de l’évidence.

Indépendance

Aucun conflit d’intérêts

Helvetic AI n’entretient aucune relation commerciale avec des fournisseurs de modèles IA. Aucune commission, aucun partenariat fournisseur, aucun accord de type pay-for-score. Chaque modèle est évalué avec le même système, les mêmes benchmarks et la même méthodologie de notation.

Des questions sur notre méthodologie ?

Nous nous ferons un plaisir de discuter de notre approche d’évaluation en détail.

contact@ai-helvetic.ch