Il HAAS-Score: 6 dimensioni, completamente riproducibile
Ogni sistema IA che valutiamo riceve un Helvetic AI Assurance Score (HAAS) su 6 dimensioni. Ogni dimensione viene valutata da 0 a 100 con intervalli di confidenza. I risultati di benchmark dettagliati e la documentazione metodologica vengono forniti, affinché possiate riprodurre ogni risultato.
6 dimensioni di valutazione
Prestazione (incl. tasso di allucinazione)
Completezza del compito, correttezza fattuale, rilevamento delle allucinazioni. Scenari specifici per dominio da Swiss-Bench testano la performance reale, non benchmark generici.
Robustezza
Input avversari, resistenza alla prompt injection, stress test. Come si comporta il modello in condizioni limite e avversarie?
Sicurezza
Rilevamento delle allucinazioni, identificazione di citazioni fabbricate, evitamento di output dannosi. Testa se i modelli inventano riferimenti giuridici svizzeri o producono indicazioni regolamentari fuorvianti.
Conformità
Conformità tecnica EU AI Act tramite 29 benchmark Compl-AI (ETH Zurigo). Scoring automatizzato sugli articoli applicabili e i requisiti tecnici per la governance dei sistemi di IA.
Lingua svizzera
Competenza multilingue in tedesco, francese e italiano. Accuratezza linguistica MMLU-ProX e qualità della traduzione svizzera. Quanto bene il modello gestisce le tre lingue ufficiali della Svizzera?
Documentazione
Qualità dell’analisi delle lacune normative — capacità dei modelli di identificare le differenze tra la regolamentazione europea e i requisiti specifici svizzeri (FINMA, nLPD). Testa il ragionamento strutturato sui quadri normativi.
Tre livelli di tecnologia di valutazione
Inspect AI
Il framework di valutazione adottato da Anthropic e Google DeepMind. Fornisce l’infrastruttura per valutazioni riproducibili dei modelli su larga scala. Oltre 100 compiti di valutazione integrati con un’architettura collaudata per il testing sistematico dell’IA.
Compl-AI
29 benchmark mappati su 6 principi EU AI Act con 18 requisiti tecnici. Fornisce lo scoring di conformità normativa. Metodologia pubblicata (ArXiv: 2410.07959).
Swiss-Bench
436 scenari di valutazione specifici per la Svizzera in 11 compiti. Testa la comprensione del tedesco, del francese e dell’italiano su compiti specifici per dominio. Rileva confusione giurisdizionale, errori di comprensione del tedesco amministrativo, deterioramento temporale e incoerenze interlinguistiche.
Metodologia peer-reviewed
Ogni scelta metodologica nel nostro sistema di valutazione si basa su ricerca peer-reviewed. La nostra valutazione dell’accuratezza delle citazioni segue Asai et al. (Nature, 2026) — lo stesso studio che ha dimostrato che GPT-4o allucina le citazioni nel 78–90% dei casi. Per questo valutiamo la correttezza delle citazioni giuridiche come dimensione di scoring dedicata.
La nostra mappatura di conformità normativa adatta il framework Compl-AI (ETH Zürich, ArXiv: 2410.07959), riconosciuto dall’OCSE. La nostra filosofia di valutazione olistica segue HELM (Stanford CRFM, peer-reviewed in TMLR). La valutazione della traduzione giuridica svizzera si basa sulla metodologia validata da Niklaus et al. (EMNLP 2023, ACL 2025) con oltre 180’000 coppie di traduzione giuridica svizzera.
Stiamo attualmente preparando un articolo scientifico per pubblicazione peer-reviewed che descrive nel dettaglio la nostra metodologia di valutazione completa, il processo di verifica da parte di esperti e il framework statistico. La nostra verifica della ground truth segue MMLU-Redux (Gema et al., NAACL 2025), che ha riscontrato un tasso di errore del 9% nei benchmark ampiamente utilizzati. Il nostro protocollo di annotazione da parte di esperti è modellato su CUAD (Hendrycks et al., NeurIPS 2021) e LegalBench (Guha et al., NeurIPS 2023). In totale, la nostra metodologia si basa su oltre 40 pubblicazioni peer-reviewed.
Ogni risultato è riproducibile
Ricevete risultati di benchmark dettagliati e documentazione metodologica con ogni incarico: file di configurazione, valori seed, set di dati benchmark e script di scoring. Potete ripetere ogni test in qualsiasi momento, sulla vostra infrastruttura.
Non è un’opinione. È evidenza.
Nessun conflitto di interessi
Helvetic AI non ha rapporti commerciali con fornitori di modelli IA. Nessuna commissione, nessuna partnership con vendor, nessun accordo pay-for-score. Ogni modello viene valutato con lo stesso sistema, gli stessi benchmark e la stessa metodologia di scoring.
Domande sulla nostra metodologia?
Siamo lieti di discutere il nostro approccio di valutazione nel dettaglio.