Swiss-Bench

Quel modèle d’IA fonctionne le mieux pour la Suisse ?

11 modèles. 6 dimensions. 3 langues. Mis à jour chaque trimestre.

Dernière mise à jour : T1 2026

Classement

Classement général des modèles

Classement général Swiss-Bench des modèles IA, T1 2026
Rang	Modèle	Type	Global	DE	FR	IT	Mis à jour
1	Claude Opus 4.6	Closed Source	65.9	82.4	82.6	81.0	Q1 2026
2	Kimi K2.5	Open Source	64.7	82.0	86.0	87.0	Q1 2026
3	Gemini 2.5 Pro	Closed Source	63.8	85.0	87.0	85.0	Q1 2026
4	MiniMax M2.5	Open Source	62.9	72.0	82.0	78.0	Q1 2026
5	GPT-4o	Closed Source	61.7	70.0	73.2	69.8	Q1 2026
6	Gemini 2.0 Flash	Closed Source	59.3	75.2	74.2	77.0	Q1 2026
7	DeepSeek V3	Open Source	58.2	81.2	81.4	80.2	Q1 2026
8	Mistral Large 2	Open Source	58.2	70.6	63.8	68.0	Q1 2026
9	Llama 3.3 70B	Open Source	56.7	64.6	68.2	63.6	Q1 2026
10	GPT-4o Mini	Closed Source	55.3	57.2	62.2	57.2	Q1 2026
11	Qwen 2.5 72B	Open Source	54.0	66.4	67.8	74.0	Q1 2026

Swiss-Bench v1.0 — score composite HAAS sur 6 dimensions : Performance, Robustesse, Sécurité, Conformité, Langue suisse, Documentation. Global = moyenne pondérée de toutes les dimensions. DE/FR/IT = précision multilingue MMLU-ProX (pondération 10% dans le HAAS). 11 modèles, T1 2026. Méthodologie →

Résultats clés

Faits saillants T1 2026

Meilleur modèle global

Claude Opus 4.6

Score HAAS le plus élevé (65,9) sur les 6 dimensions. Solide connaissance du droit suisse et conformité EU AI Act.

Course la plus serrée

Top 4 à 3 points d'écart

Kimi K2.5 (64.7), Gemini 2.5 Pro (63.8) et MiniMax M2.5 (62.9) ne sont qu'à 1–3 points du leader. La frontière est dense.

Meilleur multilingue

Gemini 2.5 Pro

Les meilleurs scores linguistiques dans les trois langues suisses (DE 85%, FR 87%, IT 85%). Kimi K2.5 le plus fort en italien (87%).

Résultats du benchmark : Swiss-Bench v1.0 (mars 2026). Mis à jour chaque trimestre.

Résultats détaillés

Performance par domaine

Répartition par domaine

Domaine	Meilleur modèle	Score	Deuxième	Écart
Services financiers	Claude Opus 4.6	91.2	GPT-4o	+2.4
Droit (fédéral)	GPT-4o	89.7	Claude Opus 4.6	+1.1
Droit (cantonal)	Claude Opus 4.6	86.3	Gemini 2.0 Flash	+3.8
Santé	Gemini 2.0 Flash	84.9	Claude Opus 4.6	+0.7
Administration publique	Claude Opus 4.6	88.1	GPT-4o	+1.9
Assurance	GPT-4o	87.4	Claude Opus 4.6	+2.2

Analyse des erreurs

Type d’erreur	Claude Opus 4.6	GPT-4o	Gemini 2.0 Flash	Llama 3.3 70B
Taux d’hallucination	2.1%	3.4%	2.8%	6.7%
Confusion de juridiction	1.3%	1.8%	2.4%	5.1%
Dégradation temporelle	4.2%	3.9%	5.1%	7.3%
Mélange linguistique	0.8%	1.2%	0.6%	3.4%

Cohérence interlinguistique

Modèle	DE↔FR	DE↔IT	FR↔IT	Cohérence moy.
Claude Opus 4.6	96.8%	94.2%	95.1%	95.4%
GPT-4o	95.3%	92.7%	93.4%	93.8%
Gemini 2.0 Flash	96.1%	95.8%	94.9%	95.6%
Mistral Large 2	97.2%	91.3%	92.7%	93.7%

Recevez le rapport Swiss-Bench complet

Analyse trimestrielle approfondie avec scores par domaine, analyse des erreurs et recommandations de modèles pour les entreprises suisses.

Pas de spam. Rapport trimestriel uniquement. Désinscription possible à tout moment.

La méthodologie Swiss-Bench, les critères d’évaluation et le cadre d’évaluation sont documentés sur notre page Méthodologie →.

Un article scientifique évalué par des pairs, décrivant notre méthodologie, la vérité terrain vérifiée par des experts et le cadre statistique, est actuellement en préparation pour publication.

Besoin de scores pour VOTRE domaine ? Notre Évaluation de modèles IA (dès CHF 8’000) exécute Swiss-Bench pour votre cas d’utilisation spécifique. Comparaison de 5 modèles, scénarios spécifiques au domaine, recommandation actionnable.

Contact

Prêt pour une évaluation indépendante ?

Commencez par une évaluation de modèle IA ou un SOTA Model Sweep complet. En deux semaines, vous saurez quel modèle fonctionne le mieux pour votre cas d’utilisation suisse.

Évaluation dès CHF 8’000 · SOTA Sweep dès CHF 20’000

contact@ai-helvetic.ch