Metodologia

Il HAAS-Score: 6 dimensioni, completamente riproducibile

Ogni sistema IA che valutiamo riceve un Helvetic AI Assurance Score (HAAS) su 6 dimensioni. Ogni dimensione viene valutata da 0 a 100 con intervalli di confidenza. I risultati di benchmark dettagliati e la documentazione metodologica vengono forniti, affinché possiate riprodurre ogni risultato.

Framework di scoring

6 dimensioni di valutazione

Prestazione (incl. tasso di allucinazione)

Completezza del compito, correttezza fattuale, rilevamento delle allucinazioni. Scenari specifici per dominio da Swiss-Bench testano la performance reale, non benchmark generici.

Robustezza

Input avversari, resistenza alla prompt injection, stress test. Come si comporta il modello in condizioni limite e avversarie?

Sicurezza

Rilevamento delle allucinazioni, identificazione di citazioni fabbricate, evitamento di output dannosi. Testa se i modelli inventano riferimenti giuridici svizzeri o producono indicazioni regolamentari fuorvianti.

Conformità

Conformità tecnica EU AI Act tramite 29 benchmark Compl-AI (ETH Zurigo). Scoring automatizzato sugli articoli applicabili e i requisiti tecnici per la governance dei sistemi di IA.

Lingua svizzera

Competenza multilingue in tedesco, francese e italiano. Accuratezza linguistica MMLU-ProX e qualità della traduzione svizzera. Quanto bene il modello gestisce le tre lingue ufficiali della Svizzera?

Documentazione

Qualità dell’analisi delle lacune normative — capacità dei modelli di identificare le differenze tra la regolamentazione europea e i requisiti specifici svizzeri (FINMA, nLPD). Testa il ragionamento strutturato sui quadri normativi.

System Stack

Tre livelli di tecnologia di valutazione

Inspect AI (licenza MIT, UK AI Safety Institute)

Il framework di valutazione adottato da Anthropic e Google DeepMind. Fornisce l’infrastruttura per valutazioni riproducibili dei modelli su larga scala. Oltre 100 compiti di valutazione integrati con un’architettura collaudata per il testing sistematico dell’IA.

Compl-AI (Apache 2.0, ETH Zürich / INSAIT)

29 benchmark mappati su 6 principi EU AI Act con 18 requisiti tecnici. Fornisce lo scoring di conformità normativa. Metodologia pubblicata (ArXiv: 2410.07959).

Swiss-Bench (proprietario)

436 scenari di valutazione specifici per la Svizzera in 11 compiti. Testa la comprensione del tedesco, del francese e dell’italiano su compiti specifici per dominio. Rileva confusione giurisdizionale, errori di comprensione del tedesco amministrativo, deterioramento temporale e incoerenze interlinguistiche.

Fondamento scientifico

Metodologia peer-reviewed

Ogni scelta metodologica nel nostro sistema di valutazione si basa su ricerca peer-reviewed. La nostra valutazione dell’accuratezza delle citazioni segue Asai et al. (Nature, 2026) — lo stesso studio che ha dimostrato che GPT-4o allucina le citazioni nel 78–90% dei casi. Per questo valutiamo la correttezza delle citazioni giuridiche come dimensione di scoring dedicata.

La nostra mappatura di conformità normativa adatta il framework Compl-AI (ETH Zürich, ArXiv: 2410.07959), riconosciuto dall’OCSE. La nostra filosofia di valutazione olistica segue HELM (Stanford CRFM, peer-reviewed in TMLR). La valutazione della traduzione giuridica svizzera si basa sulla metodologia validata da Niklaus et al. (EMNLP 2023, ACL 2025) con oltre 180’000 coppie di traduzione giuridica svizzera.

Stiamo attualmente preparando un articolo scientifico per pubblicazione peer-reviewed che descrive nel dettaglio la nostra metodologia di valutazione completa, il processo di verifica da parte di esperti e il framework statistico. La nostra verifica della ground truth segue MMLU-Redux (Gema et al., NAACL 2025), che ha riscontrato un tasso di errore del 9% nei benchmark ampiamente utilizzati. Il nostro protocollo di annotazione da parte di esperti è modellato su CUAD (Hendrycks et al., NeurIPS 2021) e LegalBench (Guha et al., NeurIPS 2023). In totale, la nostra metodologia si basa su oltre 40 pubblicazioni peer-reviewed.

Risultato chiave (Asai et al., Nature, 2026): Quando i LLM citano articoli di legge, regolamenti o giurisprudenza, fabbricano i riferimenti nel 78–90% dei casi. La nostra metodologia di scoring valuta esplicitamente precisione, richiamo e correttezza delle citazioni — non solo se la risposta sembra plausibile.

Riproducibilità

Ogni risultato è riproducibile

Ricevete risultati di benchmark dettagliati e documentazione metodologica con ogni incarico: file di configurazione, valori seed, set di dati benchmark e script di scoring. Potete ripetere ogni test in qualsiasi momento, sulla vostra infrastruttura.

Non è un’opinione. È evidenza.

Indipendenza

Nessun conflitto di interessi

Helvetic AI non ha rapporti commerciali con fornitori di modelli IA. Nessuna commissione, nessuna partnership con vendor, nessun accordo pay-for-score. Ogni modello viene valutato con lo stesso sistema, gli stessi benchmark e la stessa metodologia di scoring.

Per saperne di più

Domande sulla nostra metodologia?

Siamo lieti di discutere il nostro approccio di valutazione nel dettaglio.

contact@ai-helvetic.ch