Le HAAS-Score : 6 dimensions, entièrement reproductible
Chaque système IA que nous évaluons reçoit un Helvetic AI Assurance Score (HAAS) sur 6 dimensions. Chaque dimension est notée de 0 à 100 avec intervalles de confiance. Les résultats de benchmark détaillés et la documentation méthodologique sont livrés avec chaque mandat, afin que vous puissiez vérifier chaque résultat de manière indépendante.
6 dimensions d’évaluation
Performance (incl. taux d’hallucination)
Complétude des tâches, exactitude factuelle, détection des hallucinations. Des scénarios spécifiques au domaine issus de Swiss-Bench testent la performance réelle, pas des benchmarks génériques.
Robustesse
Entrées adversariales, résistance aux injections de prompt, tests de stress. Comment le modèle se comporte-t-il face aux cas limites et aux conditions adversariales ?
Sécurité
Détection des hallucinations, identification de citations fabriquées, évitement des sorties nuisibles. Teste si les modèles inventent des références juridiques suisses ou produisent des orientations réglementaires trompeuses.
Conformité
Conformité technique EU AI Act via 29 benchmarks Compl-AI (ETH Zurich). Scoring automatisé sur les articles applicables et les exigences techniques de gouvernance des systèmes d’IA.
Langue suisse
Compétence multilingue en allemand, français et italien. Précision linguistique MMLU-ProX et qualité de traduction suisse. Comment le modèle gère-t-il les trois langues officielles de la Suisse ?
Documentation
Qualité de l’analyse des lacunes réglementaires — capacité des modèles à identifier les différences entre la réglementation européenne et les exigences spécifiques suisses (FINMA, nLPD). Teste le raisonnement structuré sur les cadres réglementaires.
Trois couches de technologie d’évaluation
Inspect AI
Le framework d’évaluation adopté par Anthropic et Google DeepMind. Fournit l’infrastructure pour des évaluations de modèles reproductibles à grande échelle. Plus de 100 tâches d’évaluation intégrées avec une architecture éprouvée pour le testing systématique d’IA.
Compl-AI
29 benchmarks projetés sur 6 principes EU AI Act couvrant 18 exigences techniques. Fournit le scoring de conformité réglementaire. Méthodologie publiée (ArXiv : 2410.07959).
Swiss-Bench
436 scénarios d’évaluation spécifiques à la Suisse couvrant 11 tâches. Teste la compréhension de l’allemand, du français et de l’italien sur des tâches spécifiques au domaine. Détecte les confusions de juridiction, les erreurs de compréhension de l’allemand administratif, l’obsolescence temporelle et les incohérences interlinguistiques.
Méthodologie revue par les pairs
Chaque choix méthodologique de notre système d’évaluation repose sur la recherche peer-reviewed. Notre évaluation de l’exactitude des citations suit Asai et al. (Nature, 2026) — la même étude qui a montré que GPT-4o hallucine les citations dans 78–90% des cas. C’est pourquoi nous évaluons la justesse des citations juridiques comme dimension de scoring dédiée.
Notre cartographie de conformité réglementaire adapte le framework Compl-AI (ETH Zurich, ArXiv : 2410.07959), reconnu par l’OCDE. Notre philosophie d’évaluation holistique suit HELM (Stanford CRFM, peer-reviewed dans TMLR). L’évaluation de la traduction juridique suisse s’appuie sur la méthodologie validée par Niklaus et al. (EMNLP 2023, ACL 2025) couvrant plus de 180’000 paires de traduction juridiques suisses.
Nous préparons actuellement un article scientifique pour publication peer-reviewed qui détaille notre méthodologie d’évaluation complète, le processus de vérification par des experts et le cadre statistique. Notre vérification de la vérité terrain suit MMLU-Redux (Gema et al., NAACL 2025), qui a découvert un taux d’erreur de 9% dans les benchmarks largement utilisés. Notre protocole d’annotation par des experts est modelé sur CUAD (Hendrycks et al., NeurIPS 2021) et LegalBench (Guha et al., NeurIPS 2023). Au total, notre méthodologie s’appuie sur plus de 40 publications peer-reviewed.
Chaque résultat est reproductible
Vous recevez les résultats de benchmark détaillés et la documentation méthodologique avec chaque mandat : fichiers de configuration, valeurs de seed, jeux de données de benchmark et scripts de notation. Vous pouvez vérifier chaque résultat de manière indépendante, sur votre propre infrastructure.
Ce n’est pas une opinion. C’est de l’évidence.
Aucun conflit d’intérêts
Helvetic AI n’entretient aucune relation commerciale avec des fournisseurs de modèles IA. Aucune commission, aucun partenariat fournisseur, aucun accord de type pay-for-score. Chaque modèle est évalué avec le même système, les mêmes benchmarks et la même méthodologie de notation.
Des questions sur notre méthodologie ?
Nous nous ferons un plaisir de discuter de notre approche d’évaluation en détail.