Quale modello IA funziona meglio per la Svizzera?
11 modelli. 6 dimensioni. 3 lingue. Aggiornamento trimestrale.
Ultimo aggiornamento: Q1 2026
Ranking generale dei modelli
| Rango | Modello | Tipo | Totale | DE | FR | IT | Aggiornato |
|---|---|---|---|---|---|---|---|
| 1 | Claude Opus 4.6 | Closed Source | 65.9 | 82.4 | 82.6 | 81.0 | Q1 2026 |
| 2 | Kimi K2.5 | Open Source | 64.7 | 82.0 | 86.0 | 87.0 | Q1 2026 |
| 3 | Gemini 2.5 Pro | Closed Source | 63.8 | 85.0 | 87.0 | 85.0 | Q1 2026 |
| 4 | MiniMax M2.5 | Open Source | 62.9 | 72.0 | 82.0 | 78.0 | Q1 2026 |
| 5 | GPT-4o | Closed Source | 61.7 | 70.0 | 73.2 | 69.8 | Q1 2026 |
| 6 | Gemini 2.0 Flash | Closed Source | 59.3 | 75.2 | 74.2 | 77.0 | Q1 2026 |
| 7 | DeepSeek V3 | Open Source | 58.2 | 81.2 | 81.4 | 80.2 | Q1 2026 |
| 8 | Mistral Large 2 | Open Source | 58.2 | 70.6 | 63.8 | 68.0 | Q1 2026 |
| 9 | Llama 3.3 70B | Open Source | 56.7 | 64.6 | 68.2 | 63.6 | Q1 2026 |
| 10 | GPT-4o Mini | Closed Source | 55.3 | 57.2 | 62.2 | 57.2 | Q1 2026 |
| 11 | Qwen 2.5 72B | Open Source | 54.0 | 66.4 | 67.8 | 74.0 | Q1 2026 |
Swiss-Bench v1.0 — punteggio composito HAAS su 6 dimensioni: Prestazione, Robustezza, Sicurezza, Conformità, Lingua svizzera, Documentazione. Totale = media ponderata di tutte le dimensioni. DE/FR/IT = accuratezza multilingue MMLU-ProX (peso 10% nel HAAS). 11 modelli, Q1 2026. Metodologia →
Highlights Q1 2026
Risultati benchmark: Swiss-Bench v1.0 (marzo 2026). Aggiornamento trimestrale.
Prestazioni per dominio
Suddivisione per dominio
| Dominio | Miglior modello | Score | Secondo | Distacco |
|---|---|---|---|---|
| Servizi finanziari | Claude Opus 4.6 | 91.2 | GPT-4o | +2.4 |
| Diritto (federale) | GPT-4o | 89.7 | Claude Opus 4.6 | +1.1 |
| Diritto (cantonale) | Claude Opus 4.6 | 86.3 | Gemini 2.0 Flash | +3.8 |
| Sanità | Gemini 2.0 Flash | 84.9 | Claude Opus 4.6 | +0.7 |
| Amministrazione pubblica | Claude Opus 4.6 | 88.1 | GPT-4o | +1.9 |
| Assicurazioni | GPT-4o | 87.4 | Claude Opus 4.6 | +2.2 |
Analisi degli errori
| Tipo di errore | Claude Opus 4.6 | GPT-4o | Gemini 2.0 Flash | Llama 3.3 70B |
|---|---|---|---|---|
| Tasso di allucinazione | 2.1% | 3.4% | 2.8% | 6.7% |
| Confusione giurisdizionale | 1.3% | 1.8% | 2.4% | 5.1% |
| Decadimento temporale | 4.2% | 3.9% | 5.1% | 7.3% |
| Mescolanza linguistica | 0.8% | 1.2% | 0.6% | 3.4% |
Coerenza interlinguistica
| Modello | DE↔FR | DE↔IT | FR↔IT | Coerenza media |
|---|---|---|---|---|
| Claude Opus 4.6 | 96.8% | 94.2% | 95.1% | 95.4% |
| GPT-4o | 95.3% | 92.7% | 93.4% | 93.8% |
| Gemini 2.0 Flash | 96.1% | 95.8% | 94.9% | 95.6% |
| Mistral Large 2 | 97.2% | 91.3% | 92.7% | 93.7% |
Un articolo scientifico peer-reviewed che descrive la nostra metodologia, la ground truth verificata da esperti e il framework statistico è attualmente in preparazione per la pubblicazione.
Pronti per una valutazione indipendente?
Iniziate con una valutazione modelli IA o un SOTA Model Sweep completo. Entro due settimane saprete quale modello funziona meglio per il vostro caso d’uso svizzero.