Welches KI-Modell passt zu Ihrem Unternehmen?
Domänenspezifische Benchmarks in DE/FR/IT. Wir testen Modelle an Ihren Aufgaben, nicht an generischen Benchmarks.
Performance-Produkte
- Modell-Rankings und Head-to-Head-Vergleiche
- Fehlermodusanalyse und Selektionsempfehlung
- Standard-Modus: Benchmark-Intelligence (Quartalsbenchmarks)
- Custom-Modus: vollständige Pipeline gegen Ihr Modell
- Vollständige Rankingtabelle mit domänenspezifischer Performance
- Schweizer Sprachqualität (DE/FR/IT)
- EU AI Act Compliance-Scores
- Total Cost of Ownership-Analyse
Gebaut für Schweizer Realität.
Swiss-Bench umfasst 436 Evaluationsszenarien in 11 Aufgaben, testet Modelle auf Deutsch, Französisch und Italienisch an domänenspezifischen Aufgaben. Anders als generische Benchmarks (MMLU, HellaSwag) misst Swiss-Bench, was für Schweizer Unternehmen zählt: Jurisdiktionsverwechslungen, Verwaltungsdeutsch-Verständnis, temporaler Verfall, Sprachregister-Fehler und cross-linguale Konsistenz.
Fine-Tuning: Wenn ein kleines Modell die grossen schlägt.
Domänenspezifisches Fine-Tuning auf kuratierten, expertenverifizierten Daten kann allgemeine Modelle dramatisch übertreffen. Ein fine-tuned 8B-Parameter-Modell, trainiert auf einem sorgfältig kuratierten, expertengestützten Instruktions-Datensatz, übertrifft Modelle mit 10–25-facher Grösse bei domänenspezifischen Aufgaben konsistent.
Cybersecurity: CyberPal-CH
| Modell | Parameter | CyberBench-CH Score | Lokal lauffähig |
|---|---|---|---|
| GPT-4o | >200B (gesch.) | 68% | Nein (nur API) |
| Llama 3 70B (Basis) | 70B | 61% | Nein (zu gross) |
| Foundation-Sec-8B (Cisco) | 8B | 59% | Ja |
| Qwen 2.5 8B (Basis) | 8B | 51% | Ja |
| CyberPal-CH 8B (fine-tuned) | 8B | 79% | Ja |
Finanzen: FinBench-CH (projiziert)
| Modell | Parameter | FinBench-CH Score | Lokal lauffähig |
|---|---|---|---|
| GPT-4o | >200B (gesch.) | 64% | Nein (nur API) |
| Llama 3 70B (Basis) | 70B | 57% | Nein (zu gross) |
| Qwen 2.5 14B (Basis) | 14B | 48% | Ja |
| FinPal-CH 14B (fine-tuned) | 14B | 76% | Ja |
Die Intelligence, die Sie erhalten.
„Für Schweizer Rechtstextzusammenfassungen übertrifft Claude Sonnet GPT-4o um 12% bei der faktischen Genauigkeit, aber GPT-4o verarbeitet französische Rechtstexte 8% besser.“
„Für FINMA-Regulierungs-Q&A zeigt Gemini Pro die niedrigste Halluzinationsrate (3,2%), hat aber Schwierigkeiten mit temporalem Reasoning bei Regulierungsversionsänderungen.“
„Für Versicherungsschadenbearbeitung auf Deutsch erreicht Mistral Large GPT-4o-Performance bei 40% niedrigeren API-Kosten, scheitert aber an italienischsprachigen Grenzfällen.“
„Bei der Verarbeitung von Finanzkennzahlen und Patientenzusammenfassungen erfindet GPT-4o in 4,1% der Fälle Bilanzwerte, während Claude Sonnet bei medizinischer Terminologie auf Deutsch die höchste Zuverlässigkeit zeigt — aber bei italienischen Fachbegriffen Schwächen aufweist.“
Was Sie erhalten.
Scoping-Call vereinbaren.
Starten Sie mit einer 5-Modell-Evaluation (ab CHF 8’000) oder beauftragen Sie einen vollständigen 30+ Modell-Sweep. Der erste Schritt ist immer ein Scoping-Call. Keine Vorbereitung nötig.