Methodik

Der HAAS-Score: 6 Dimensionen, vollständig reproduzierbar

Jedes KI-System, das wir evaluieren, erhält einen Helvetic AI Assurance Score (HAAS) über 6 Dimensionen. Jede Dimension wird 0–100 bewertet mit Konfidenzintervallen. Detaillierte Benchmark-Ergebnisse, Scoring-Aufschlüsselungen und Methodik-Dokumentation werden mitgeliefert, damit Sie jedes Ergebnis reproduzieren können.

Scoring-Framework

6 Evaluationsdimensionen

Leistung (inkl. Halluzinationsrate)

Aufgabenvollständigkeit, faktische Korrektheit, Halluzinationserkennung. Domänenspezifische Szenarien aus Swiss-Bench testen reale Performance, nicht generische Benchmarks.

Robustheit

Adversariale Eingaben, Prompt-Injection-Resistenz, Stress-Tests. Wie verhält sich das Modell unter Grenzfällen und adversarialen Bedingungen?

Sicherheit

Halluzinationserkennung, Identifikation fabrizierter Zitate, Vermeidung schädlicher Outputs. Testet, ob Modelle Schweizer Rechtsverweise erfinden oder irreführende regulatorische Hinweise geben.

Konformität

Technische EU-AI-Act-Konformität über 29 Compl-AI-Benchmarks (ETH Zürich). Automatisierte Bewertung über anwendbare Artikel und technische Anforderungen für die KI-System-Governance.

Schweizer Sprache

Mehrsprachige Kompetenz in Deutsch, Französisch und Italienisch. MMLU-ProX sprachspezifische Genauigkeit und Schweizer Übersetzungsqualität. Wie gut bewältigt das Modell die drei Amtssprachen der Schweiz?

Dokumentation

Qualität der regulatorischen Lückenanalyse — wie gut Modelle Unterschiede zwischen EU-weiter Regulierung und Schweiz-spezifischen Anforderungen (FINMA, nDSG) erkennen. Testet strukturiertes Reasoning über regulatorische Rahmenbedingungen.

System-Stack

Drei Schichten Evaluationstechnologie

Inspect AI (MIT-Lizenz, UK AI Safety Institute)

Das Evaluations-Framework, übernommen von Anthropic und Google DeepMind. Bietet die Infrastruktur für reproduzierbare Modell-Evaluationen im grossen Massstab. Über 100 integrierte Evaluationsaufgaben mit einer bewährten Architektur für systematisches KI-Testing.

Compl-AI (Apache 2.0, ETH Zürich / INSAIT)

29 Benchmarks abgebildet auf 6 EU AI Act Prinzipien über 18 technische Anforderungen. Liefert das regulatorische Compliance-Scoring. Publizierte Methodik (ArXiv: 2410.07959).

Swiss-Bench (Proprietär)

436 Schweiz-spezifische Evaluationsszenarien in 11 Aufgaben. Testet Deutsch-, Französisch- und Italienisch-Verständnis an domänenspezifischen Aufgaben. Erkennt Jurisdiktionsverwechslungen, Verwaltungsdeutsch-Verständnisfehler, temporalen Verfall und cross-linguale Inkonsistenzen.

Wissenschaftliche Grundlage

Peer-reviewed Methodik

Jede methodische Entscheidung in unserem Evaluationssystem basiert auf peer-reviewed Forschung. Unsere Evaluierung der Zitationsgenauigkeit folgt Asai et al. (Nature, 2026) — derselben Studie, die nachwies, dass GPT-4o Zitate in 78–90% der Fälle halluziniert. Deshalb evaluieren wir die Korrektheit juristischer Zitate als eigene Scoring-Dimension.

Unser regulatorisches Compliance-Mapping adaptiert das Compl-AI-Framework (ETH Zürich, ArXiv: 2410.07959), anerkannt von der OECD. Unsere holistische Evaluationsphilosophie folgt HELM (Stanford CRFM, peer-reviewed in TMLR). Die Evaluation der Schweizer Rechtsübersetzung basiert auf Methodik, validiert durch Niklaus et al. (EMNLP 2023, ACL 2025) mit über 180'000 Schweizer juristischen Übersetzungspaaren.

Wir bereiten derzeit einen wissenschaftlichen Artikel für eine peer-reviewed Publikation vor, der unsere vollständige Evaluationsmethodik, den Experten-Verifizierungsprozess und das statistische Framework beschreibt. Unsere Ground-Truth-Verifizierung folgt MMLU-Redux (Gema et al., NAACL 2025), die eine Fehlerquote von 9% in verbreiteten Benchmarks feststellte. Unser Experten-Annotationsprotokoll orientiert sich an CUAD (Hendrycks et al., NeurIPS 2021) und LegalBench (Guha et al., NeurIPS 2023). Insgesamt stützt sich unsere Methodik auf über 40 peer-reviewed Publikationen.

Kernergebnis (Asai et al., Nature, 2026): Wenn LLMs Gesetzesartikel, Verordnungen oder Urteile zitieren, erfinden sie die Referenzen in 78–90% der Fälle. Unsere Scoring-Methodik evaluiert explizit Zitations-Precision, -Recall und -Korrektheit — nicht nur, ob die Antwort plausibel klingt.

Reproduzierbarkeit

Jedes Ergebnis ist reproduzierbar

Sie erhalten detaillierte Benchmark-Ergebnisse, Scoring-Aufschlüsselungen und Methodik-Dokumentation mit jedem Engagement: Konfigurationsdateien, Seed-Werte, Benchmark-Datensätze und Scoring-Skripte. Sie können jeden Test jederzeit selbst wiederholen, auf Ihrer eigenen Infrastruktur.

Das ist keine Meinung. Es ist Evidenz.

Unabhängigkeit

Keine Interessenkonflikte

Helvetic AI hat keine kommerziellen Beziehungen zu KI-Modell-Anbietern. Keine Provisionen, keine Vendor-Partnerschaften, keine Pay-for-Score-Vereinbarungen. Jedes Modell wird mit demselben System, denselben Benchmarks und derselben Scoring-Methodik evaluiert.

Referenzen

Schlüsselpublikationen

Asai, A. et al. „Citation correctness in large language models.“ Nature, 2026.
Dobreva, R. et al. „Compl-AI: Compliance assessment of LLMs against EU AI Act requirements.“ ArXiv: 2410.07959, 2024. (ETH Zürich / INSAIT)
Liang, P. et al. „Holistic Evaluation of Language Models (HELM).“ TMLR, 2023. (Stanford CRFM)
UK AI Safety Institute. „Inspect AI: evaluation framework for AI systems.“ MIT License, 2024.
Niklaus, J. et al. „MultiLegalPile: a 689GB multilingual legal corpus.“ EMNLP, 2023.
Niklaus, J. et al. „Swiss legal translation evaluation: 180,000+ translation pairs.“ ACL, 2025.
Gema, A.P. et al. „MMLU-Redux: Fixing expert-written evaluation sets.“ NAACL, 2025.
Hendrycks, D. et al. „CUAD: An expert-annotated NLP dataset for legal contract review.“ NeurIPS, 2021.
Guha, N. et al. „LegalBench: A collaboratively built benchmark for measuring legal reasoning.“ NeurIPS, 2023.
OECD. „AI risk management and governance frameworks.“ OECD AI Policy Observatory, 2024.

Mehr erfahren

Fragen zu unserer Methodik?

Wir besprechen gerne unseren Evaluationsansatz im Detail.

contact@ai-helvetic.ch