Quanto è accurato ScanToExcel?
Misuriamo ScanToExcel su un set di 3000 documenti reali — fatture, scontrini, estratti conto bancari e di carta, buste paga e immagini di tabelle — confrontando ogni campo estratto con una soluzione verificata a mano. I numeri qui sotto sono i risultati reali della nostra ultima valutazione, non slogan di marketing.
Accuratezza per tipo di documento
Ogni tipo è valutato su tutti i suoi campi. "Accuratezza" è il punteggio F1 in percentuale — F1 combina quanto spesso restituiamo una risposta corretta (precision) e quanto di ciò che c'era davvero abbiamo catturato (recall). La velocità è end-to-end, inclusi upload ed elaborazione IA.
| Tipo di documento | Documenti | Accuratezza |
|---|---|---|
| Fatture | 600 | 99,5% |
| Immagini di tabelle | 200 | 99,2% |
| Estratti carta | 500 | 98,8% |
| Estratti conto bancari | 650 | 98,7% |
| Scontrini | 600 | 97,3% |
| Buste paga | 450 | 94,6% |
Questi numeri provengono dal nostro set di test interno in questa data — descrivono come il motore si è comportato su quei fixture e non rappresentano un risultato garantito per nessun documento specifico che carichi. L'accuratezza reale varia in base a qualità dell'immagine, layout, lingua e formato del documento.
Documenti estratti perfettamente
L'F1 a livello di campo riflette la correttezza media, ma non quanto spesso un documento esca completamente corretto dall'inizio alla fine. Per questo lo misuriamo. Di seguito la quota di fixture in cui ogni campo valutato coincideva con la chiave di risposta verificata a mano — cioè il documento è tornato pronto all'uso, senza nulla da correggere.
| Tipo di documento | Fixtures | Totalmente corretto |
|---|---|---|
| Fatture | 600 | 96,2% |
| Tabelle in immagine | 200 | 95,9% |
| Estratti carta di credito | 500 | 95,7% |
| Estratti conto | 650 | 95,2% |
| Ricevute | 600 | 93,9% |
| Buste paga | 450 | 92,1% |
Sono comunque numeri del set di test, non una garanzia per nessun caricamento specifico: valgono le stesse avvertenze della tabella sopra.
Validazione su set riservato
Oltre al set principale teniamo un piccolo set riservato che il modello non ha mai visto durante lo sviluppo. I numeri tra parentesi sono il numero di documenti.
| Tipo di documento | Set principale | Set riservato | Δ |
|---|---|---|---|
| Fatture | 99,5% (n=600) | 97,8% (n=150) | −0.017 |
| Immagini di tabelle | 99,2% (n=200) | 96,7% (n=50) | −0.025 |
| Estratti carta | 98,8% (n=500) | 99,9% (n=130) | +0.011 |
| Estratti conto bancari | 98,7% (n=650) | 99,8% (n=160) | +0.011 |
| Scontrini | 97,3% (n=600) | 98,6% (n=150) | +0.013 |
| Buste paga | 94,6% (n=450) | 95,3% (n=110) | +0.007 |
Scontrini, estratti conto bancari, di carta e buste paga ottengono un punteggio più alto sul set non visto — forte indizio che il modello generalizza invece di memorizzare. Fatture e immagini di tabelle calano un po' sul set riservato; è un segnale onesto che quel piccolo set ha casi limite più duri (e che su quei tipi abbiamo ancora margine).
Cosa valutiamo
Ogni documento viene confrontato campo per campo con una soluzione verificata a mano. Questi sono i campi valutati per ogni tipo di documento.
Fatture (16 fields)
issue date, due date, currency, vendor info, customer info, line items, subtotal, tax, tax-inclusive flag, tax rows, line tax fields, total and withholdings.
Immagini di tabelle (5 fields)
header rows, header cell, row identification, row type and row cell.
Estratti carta (20 fields)
card network, holder, statement period, payment due date, minimum payment due, credit limit, available credit, summary purchases, summary payments, summary fees, summary interest, opening and closing balances, transactions, posted date, transaction type, transaction amount and currency.
Estratti conto bancari (16 fields)
account holder, account currency, statement period, opening and closing balances, interest paid, fees charged, transactions, posted date, transaction type, transaction amount, running balance, credit total and debit total.
Scontrini (11 fields)
date, currency, vendor, line items, subtotal, tax, tax row breakdown, tip, total and payment details.
Buste paga (40 fields)
employee, employer, country, currency, pay period, base pay rate and unit, annual salary, current net pay, summary YTD totals (gross, taxes, net), and per-row earnings, taxes, deductions and employer contributions (each with hours, rate, current amount and YTD).
Come misuriamo
Documenti reali — mai i tuoi
Il nostro set di 3000 campioni è un mix di documenti disponibili pubblicamente (dataset OCR aperti ed esempi pubblici), dati che abbiamo licenziato e acquistato, e documenti sintetici che generiamo noi stessi per stressare i casi limite. Quello che non c'è mai dentro: i tuoi file. I documenti che carichi su ScanToExcel vengono elaborati in memoria e cancellati nell'istante in cui il tuo download è pronto — mai salvati, mai usati per addestrare modelli, mai aggiunti a questo benchmark.
Soluzioni verificate a mano
Ogni campione ha una ground truth verificata manualmente. Ogni campo in output viene confrontato campo per campo.
F1, precision, recall — a livello di campo
Valutiamo ogni campo come true positive, false positive o false negative. F1 (media armonica di precision e recall) è il punteggio principale — standard del settore per OCR strutturato.
Set di validazione riservato
Un piccolo set rimane fuori dallo sviluppo per individuare l'overfitting. I numeri sono pubblicati sopra.
Velocità end-to-end
p50 e p95 sono tempi reali dal momento dell'upload fino al file di output pronto, inclusa l'elaborazione IA.
Rivalutazione continua
Ogni cambio di modello o prompt viene rivalutato sull'intero set prima della pubblicazione. I numeri riflettono il modello in produzione al 2026-05-05.
Domande frequenti
Usate i miei file per addestrare l'IA o ampliare questo benchmark?
No. I file che carichi su ScanToExcel vengono elaborati in memoria ed eliminati definitivamente nell'istante in cui il tuo download è pronto. Non li conserviamo, non li usiamo per l'addestramento e non li aggiungiamo al set di valutazione dietro questi numeri. I 3000 documenti provengono da dataset pubblici e documenti nostri — mai dagli upload degli utenti. Vedi la nostra Informativa sulla privacy.
Quanto è accurato ScanToExcel?
ScanToExcel raggiunge il 98,0 % di accuratezza ponderata su 3000 documenti reali in sei tipi. Fatture 99,5 %, immagini di tabelle 99,2 %, estratti carta 98,8 %, scontrini 97,3 %, estratti conto bancari 98,7 % e buste paga 94,6 %.
Quale tipo di documento è il più accurato?
Le fatture, con 99,5 % F1 su 600 documenti reali. Immagini di tabelle (99,2 %) ed estratti carta (98,8 %) sono molto vicini.
Quale tipo è il meno accurato?
Le buste paga, 94,6 % F1 — soprattutto perché hanno lo schema più grande (40 campi) e i layout dei datori di lavoro variano molto. Intestazioni, totali e voci restano sopra il 92 %; i punti deboli sono il parsing delle aliquote e la classificazione SALARY vs HOURLY.
Quanto è veloce una conversione?
La maggior parte dei documenti viene convertita in 2 – 7 secondi. Scontrini e immagini di tabelle sono i più rapidi (mediana 2,3 – 2,6 s); gli estratti conto bancari sono i più lenti (mediana 10,2 s, p95 17,2 s) perché sono i documenti più lunghi.
Cos'è F1?
F1 è la media armonica di precision e recall. Precision: "di ciò che abbiamo restituito, quanto era corretto". Recall: "di ciò che era davvero presente, quanto abbiamo catturato". F1 sintetizza entrambi in un solo numero — è lo standard del settore per OCR strutturato.
Testate su documenti reali?
Sì — e per chiarezza, nessuno è un upload utente. Il set è composto principalmente da scontrini, fatture, estratti conto e buste paga reali da dataset pubblici e documenti di nostra proprietà o concessi in licenza, più una porzione minore di documenti sintetici che generiamo noi stessi per stressare casi limite — layout insoliti, scansioni di bassa qualità e totali complicati.
I numeri di questa pagina sono reali?
Sì. Provengono direttamente dall'ultima valutazione contro il nostro set di 3000 documenti. Modello e prompt vengono rivalutati per intero prima di ogni rilascio.
Provalo sui tuoi documenti
I numeri aiutano, ma l'unico benchmark che conta sono i tuoi documenti. Carica un file — non serve registrarsi per le conversioni gratuite — e verifica.
Avvia una conversione gratuita