Swiss-Bench

Quale modello IA funziona meglio per la Svizzera?

11 modelli. 6 dimensioni. 3 lingue. Aggiornamento trimestrale.

Ultimo aggiornamento: Q1 2026

Classifica

Ranking generale dei modelli

Classifica generale Swiss-Bench dei modelli IA, T1 2026
Rango	Modello	Tipo	Totale	DE	FR	IT	Aggiornato
1	Claude Opus 4.6	Closed Source	65.9	82.4	82.6	81.0	Q1 2026
2	Kimi K2.5	Open Source	64.7	82.0	86.0	87.0	Q1 2026
3	Gemini 2.5 Pro	Closed Source	63.8	85.0	87.0	85.0	Q1 2026
4	MiniMax M2.5	Open Source	62.9	72.0	82.0	78.0	Q1 2026
5	GPT-4o	Closed Source	61.7	70.0	73.2	69.8	Q1 2026
6	Gemini 2.0 Flash	Closed Source	59.3	75.2	74.2	77.0	Q1 2026
7	DeepSeek V3	Open Source	58.2	81.2	81.4	80.2	Q1 2026
8	Mistral Large 2	Open Source	58.2	70.6	63.8	68.0	Q1 2026
9	Llama 3.3 70B	Open Source	56.7	64.6	68.2	63.6	Q1 2026
10	GPT-4o Mini	Closed Source	55.3	57.2	62.2	57.2	Q1 2026
11	Qwen 2.5 72B	Open Source	54.0	66.4	67.8	74.0	Q1 2026

Swiss-Bench v1.0 — punteggio composito HAAS su 6 dimensioni: Prestazione, Robustezza, Sicurezza, Conformità, Lingua svizzera, Documentazione. Totale = media ponderata di tutte le dimensioni. DE/FR/IT = accuratezza multilingue MMLU-ProX (peso 10% nel HAAS). 11 modelli, Q1 2026. Metodologia →

Risultati principali

Highlights Q1 2026

Miglior modello complessivo

Claude Opus 4.6

Punteggio HAAS più alto (65,9) su tutte le 6 dimensioni. Solida conoscenza del diritto svizzero e conformità EU AI Act.

Gara più serrata

Top 4 entro 3 punti

Kimi K2.5 (64.7), Gemini 2.5 Pro (63.8) e MiniMax M2.5 (62.9) sono a soli 1–3 punti dal leader. La frontiera è affollata.

Migliore multilingue

Gemini 2.5 Pro

I punteggi linguistici più alti in tutte e tre le lingue svizzere (DE 85%, FR 87%, IT 85%). Kimi K2.5 il più forte in italiano (87%).

Risultati benchmark: Swiss-Bench v1.0 (marzo 2026). Aggiornamento trimestrale.

Risultati dettagliati

Prestazioni per dominio

Suddivisione per dominio

Dominio	Miglior modello	Score	Secondo	Distacco
Servizi finanziari	Claude Opus 4.6	91.2	GPT-4o	+2.4
Diritto (federale)	GPT-4o	89.7	Claude Opus 4.6	+1.1
Diritto (cantonale)	Claude Opus 4.6	86.3	Gemini 2.0 Flash	+3.8
Sanità	Gemini 2.0 Flash	84.9	Claude Opus 4.6	+0.7
Amministrazione pubblica	Claude Opus 4.6	88.1	GPT-4o	+1.9
Assicurazioni	GPT-4o	87.4	Claude Opus 4.6	+2.2

Analisi degli errori

Tipo di errore	Claude Opus 4.6	GPT-4o	Gemini 2.0 Flash	Llama 3.3 70B
Tasso di allucinazione	2.1%	3.4%	2.8%	6.7%
Confusione giurisdizionale	1.3%	1.8%	2.4%	5.1%
Decadimento temporale	4.2%	3.9%	5.1%	7.3%
Mescolanza linguistica	0.8%	1.2%	0.6%	3.4%

Coerenza interlinguistica

Modello	DE↔FR	DE↔IT	FR↔IT	Coerenza media
Claude Opus 4.6	96.8%	94.2%	95.1%	95.4%
GPT-4o	95.3%	92.7%	93.4%	93.8%
Gemini 2.0 Flash	96.1%	95.8%	94.9%	95.6%
Mistral Large 2	97.2%	91.3%	92.7%	93.7%

Ricevi il report completo Swiss-Bench

Approfondimento trimestrale con punteggi per dominio, analisi degli errori e raccomandazioni sui modelli per le aziende svizzere.

Nessuno spam. Solo il report trimestrale. Cancellazione in qualsiasi momento.

La metodologia Swiss-Bench, i criteri di valutazione e il framework di valutazione sono documentati sulla nostra pagina Metodologia →.

Un articolo scientifico peer-reviewed che descrive la nostra metodologia, la ground truth verificata da esperti e il framework statistico è attualmente in preparazione per la pubblicazione.

Avete bisogno di punteggi per il VOSTRO dominio? La nostra Valutazione modelli IA (da CHF 8’000) esegue Swiss-Bench sul vostro caso d’uso specifico. Confronto di 5 modelli, scenari specifici per dominio, raccomandazione operativa.

Contatto

Pronti per una valutazione indipendente?

Iniziate con una valutazione modelli IA o un SOTA Model Sweep completo. Entro due settimane saprete quale modello funziona meglio per il vostro caso d’uso svizzero.

Valutazione da CHF 8’000 · SOTA Sweep da CHF 20’000

contact@ai-helvetic.ch