Swiss-Bench

Welches KI-Modell funktioniert am besten für die Schweiz?

11 Modelle. 6 Dimensionen. 3 Sprachen. Vierteljährlich aktualisiert.

Letzte Aktualisierung: Q1 2026

Bestenliste

Gesamtranking der Modelle

Swiss-Bench Gesamtranking der KI-Modelle, Q1 2026
Rang	Modell	Typ	Gesamt	DE	FR	IT	Aktualisiert
1	Claude Opus 4.6	Closed Source	65.9	82.4	82.6	81.0	Q1 2026
2	Kimi K2.5	Open Source	64.7	82.0	86.0	87.0	Q1 2026
3	Gemini 2.5 Pro	Closed Source	63.8	85.0	87.0	85.0	Q1 2026
4	MiniMax M2.5	Open Source	62.9	72.0	82.0	78.0	Q1 2026
5	GPT-4o	Closed Source	61.7	70.0	73.2	69.8	Q1 2026
6	Gemini 2.0 Flash	Closed Source	59.3	75.2	74.2	77.0	Q1 2026
7	DeepSeek V3	Open Source	58.2	81.2	81.4	80.2	Q1 2026
8	Mistral Large 2	Open Source	58.2	70.6	63.8	68.0	Q1 2026
9	Llama 3.3 70B	Open Source	56.7	64.6	68.2	63.6	Q1 2026
10	GPT-4o Mini	Closed Source	55.3	57.2	62.2	57.2	Q1 2026
11	Qwen 2.5 72B	Open Source	54.0	66.4	67.8	74.0	Q1 2026

Swiss-Bench v1.0 — HAAS-Gesamtscore über 6 Dimensionen: Leistung, Robustheit, Sicherheit, Konformität, Schweizer Sprache, Dokumentation. Gesamt = gewichteter Durchschnitt aller Dimensionen. DE/FR/IT = MMLU-ProX mehrsprachige Genauigkeit (10% Gewichtung im HAAS). 11 Modelle, Q1 2026. Methodik →

Wichtige Ergebnisse

Q1 2026 Highlights

Bestes Gesamtmodell

Claude Opus 4.6

Höchster HAAS-Score (65.9) über alle 6 Dimensionen. Starkes Schweizer Rechtswissen und EU-AI-Act-Compliance.

Engstes Rennen

Top 4 innerhalb von 3 Punkten

Kimi K2.5 (64.7), Gemini 2.5 Pro (63.8) und MiniMax M2.5 (62.9) liegen nur 1–3 Punkte hinter dem Führenden. Die Frontier ist dicht besetzt.

Beste Mehrsprachigkeit

Gemini 2.5 Pro

Höchste Sprachscores in allen drei Schweizer Sprachen (DE 85%, FR 87%, IT 85%). Kimi K2.5 am stärksten in Italienisch (87%).

Benchmark-Ergebnisse: Swiss-Bench v1.0 (März 2026). Vierteljährlich aktualisiert.

Detaillierte Ergebnisse

Domänenspezifische Leistung

Domänenaufschlüsselung

Domäne	Bestes Modell	Score	Zweitbestes	Abstand
Finanzdienstleistungen	Claude Opus 4.6	91.2	GPT-4o	+2.4
Recht (Bund)	GPT-4o	89.7	Claude Opus 4.6	+1.1
Recht (Kantonal)	Claude Opus 4.6	86.3	Gemini 2.0 Flash	+3.8
Gesundheitswesen	Gemini 2.0 Flash	84.9	Claude Opus 4.6	+0.7
Öffentliche Verwaltung	Claude Opus 4.6	88.1	GPT-4o	+1.9
Versicherung	GPT-4o	87.4	Claude Opus 4.6	+2.2

Fehleranalyse

Fehlertyp	Claude Opus 4.6	GPT-4o	Gemini 2.0 Flash	Llama 3.3 70B
Halluzinationsrate	2.1%	3.4%	2.8%	6.7%
Jurisdiktionsverwechslung	1.3%	1.8%	2.4%	5.1%
Temporaler Verfall	4.2%	3.9%	5.1%	7.3%
Sprachmischung	0.8%	1.2%	0.6%	3.4%

Sprachübergreifende Konsistenz

Modell	DE↔FR	DE↔IT	FR↔IT	Avg. Konsistenz
Claude Opus 4.6	96.8%	94.2%	95.1%	95.4%
GPT-4o	95.3%	92.7%	93.4%	93.8%
Gemini 2.0 Flash	96.1%	95.8%	94.9%	95.6%
Mistral Large 2	97.2%	91.3%	92.7%	93.7%

Vollständigen Swiss-Bench Report erhalten

Vierteljährlicher Deep-Dive mit Domänen-Scores, Fehleranalyse und Modellempfehlungen für Schweizer Unternehmen.

Kein Spam. Nur vierteljährlicher Report. Jederzeit abbestellbar.

Swiss-Bench Methodik, Bewertungskriterien und Evaluationsframework sind auf unserer Methodik-Seite → dokumentiert.

Ein peer-reviewed wissenschaftlicher Artikel, der unsere Methodik, die von Experten verifizierte Ground Truth und das statistische Framework beschreibt, befindet sich derzeit in Vorbereitung zur Publikation.

Brauchen Sie Scores für IHRE Domäne? Unsere KI-Modell-Evaluation (ab CHF 8’000) führt Swiss-Bench gegen Ihren spezifischen Anwendungsfall aus. 5-Modell-Vergleich, domänenspezifische Szenarien, umsetzbare Empfehlung.

Kontakt

Bereit für eine unabhängige Evaluation?

Starten Sie mit einer KI-Modell-Evaluation oder einem vollständigen SOTA Model Sweep. Innerhalb von zwei Wochen wissen Sie, welches Modell für Ihren Schweizer Anwendungsfall am besten funktioniert.

Evaluation ab CHF 8’000 · SOTA Sweep ab CHF 20’000

contact@ai-helvetic.ch