Prestazioni

Misure reali su documenti reali — quello che puoi davvero aspettarti da ScanToExcel.

98,0%
Accuratezza ponderata
su 3000 documenti reali
3000
Documenti reali
in 6 tipi di documento
6
Tipi di documento
testati end-to-end
< 10 s
Conversione mediana
meno di 3 secondi per i documenti semplici

Quanto è accurato ScanToExcel?

Misuriamo ScanToExcel su un set di 3000 documenti reali — fatture, scontrini, estratti conto bancari e di carta, buste paga e immagini di tabelle — confrontando ogni campo estratto con una soluzione verificata a mano. I numeri qui sotto sono i risultati reali della nostra ultima valutazione, non slogan di marketing.

Numeri principali: Valutiamo per campo con F1, precision e recall (metriche standard per OCR strutturato). In pagina presentiamo F1 come una percentuale di "accuratezza" per leggibilità. p50 / p95 sono i tempi di conversione end-to-end, mediano e 95º percentile.

Accuratezza per tipo di documento

Ogni tipo è valutato su tutti i suoi campi. "Accuratezza" è il punteggio F1 in percentuale — F1 combina quanto spesso restituiamo una risposta corretta (precision) e quanto di ciò che c'era davvero abbiamo catturato (recall). La velocità è end-to-end, inclusi upload ed elaborazione IA.

Tipo di documentoDocumentiAccuratezza
Fatture60099,5%
Immagini di tabelle20099,2%
Estratti carta50098,8%
Estratti conto bancari65098,7%
Scontrini60097,3%
Buste paga45094,6%

Questi numeri provengono dal nostro set di test interno in questa data — descrivono come il motore si è comportato su quei fixture e non rappresentano un risultato garantito per nessun documento specifico che carichi. L'accuratezza reale varia in base a qualità dell'immagine, layout, lingua e formato del documento.

Documenti estratti perfettamente

L'F1 a livello di campo riflette la correttezza media, ma non quanto spesso un documento esca completamente corretto dall'inizio alla fine. Per questo lo misuriamo. Di seguito la quota di fixture in cui ogni campo valutato coincideva con la chiave di risposta verificata a mano — cioè il documento è tornato pronto all'uso, senza nulla da correggere.

Su tutti i 3000 fixture, il 94,8 % è tornato con ogni campo corretto. La maggior parte dei caricamenti del nostro set di test torna pronta all'uso — ma una minoranza richiede comunque una rapida verifica.
Tipo di documentoFixturesTotalmente corretto
Fatture60096,2%
Tabelle in immagine20095,9%
Estratti carta di credito50095,7%
Estratti conto65095,2%
Ricevute60093,9%
Buste paga45092,1%

Sono comunque numeri del set di test, non una garanzia per nessun caricamento specifico: valgono le stesse avvertenze della tabella sopra.

Validazione su set riservato

Oltre al set principale teniamo un piccolo set riservato che il modello non ha mai visto durante lo sviluppo. I numeri tra parentesi sono il numero di documenti.

Tipo di documentoSet principaleSet riservatoΔ
Fatture99,5% (n=600)97,8% (n=150)−0.017
Immagini di tabelle99,2% (n=200)96,7% (n=50)−0.025
Estratti carta98,8% (n=500)99,9% (n=130)+0.011
Estratti conto bancari98,7% (n=650)99,8% (n=160)+0.011
Scontrini97,3% (n=600)98,6% (n=150)+0.013
Buste paga94,6% (n=450)95,3% (n=110)+0.007

Scontrini, estratti conto bancari, di carta e buste paga ottengono un punteggio più alto sul set non visto — forte indizio che il modello generalizza invece di memorizzare. Fatture e immagini di tabelle calano un po' sul set riservato; è un segnale onesto che quel piccolo set ha casi limite più duri (e che su quei tipi abbiamo ancora margine).

Cosa valutiamo

Ogni documento viene confrontato campo per campo con una soluzione verificata a mano. Questi sono i campi valutati per ogni tipo di documento.

Fatture (16 fields)

issue date, due date, currency, vendor info, customer info, line items, subtotal, tax, tax-inclusive flag, tax rows, line tax fields, total and withholdings.

Immagini di tabelle (5 fields)

header rows, header cell, row identification, row type and row cell.

Estratti carta (20 fields)

card network, holder, statement period, payment due date, minimum payment due, credit limit, available credit, summary purchases, summary payments, summary fees, summary interest, opening and closing balances, transactions, posted date, transaction type, transaction amount and currency.

Estratti conto bancari (16 fields)

account holder, account currency, statement period, opening and closing balances, interest paid, fees charged, transactions, posted date, transaction type, transaction amount, running balance, credit total and debit total.

Scontrini (11 fields)

date, currency, vendor, line items, subtotal, tax, tax row breakdown, tip, total and payment details.

Buste paga (40 fields)

employee, employer, country, currency, pay period, base pay rate and unit, annual salary, current net pay, summary YTD totals (gross, taxes, net), and per-row earnings, taxes, deductions and employer contributions (each with hours, rate, current amount and YTD).

Come misuriamo

Documenti reali — mai i tuoi

Il nostro set di 3000 campioni è un mix di documenti disponibili pubblicamente (dataset OCR aperti ed esempi pubblici), dati che abbiamo licenziato e acquistato, e documenti sintetici che generiamo noi stessi per stressare i casi limite. Quello che non c'è mai dentro: i tuoi file. I documenti che carichi su ScanToExcel vengono elaborati in memoria e cancellati nell'istante in cui il tuo download è pronto — mai salvati, mai usati per addestrare modelli, mai aggiunti a questo benchmark.

Soluzioni verificate a mano

Ogni campione ha una ground truth verificata manualmente. Ogni campo in output viene confrontato campo per campo.

F1, precision, recall — a livello di campo

Valutiamo ogni campo come true positive, false positive o false negative. F1 (media armonica di precision e recall) è il punteggio principale — standard del settore per OCR strutturato.

Set di validazione riservato

Un piccolo set rimane fuori dallo sviluppo per individuare l'overfitting. I numeri sono pubblicati sopra.

Velocità end-to-end

p50 e p95 sono tempi reali dal momento dell'upload fino al file di output pronto, inclusa l'elaborazione IA.

Rivalutazione continua

Ogni cambio di modello o prompt viene rivalutato sull'intero set prima della pubblicazione. I numeri riflettono il modello in produzione al 2026-05-05.

Domande frequenti

Usate i miei file per addestrare l'IA o ampliare questo benchmark?

No. I file che carichi su ScanToExcel vengono elaborati in memoria ed eliminati definitivamente nell'istante in cui il tuo download è pronto. Non li conserviamo, non li usiamo per l'addestramento e non li aggiungiamo al set di valutazione dietro questi numeri. I 3000 documenti provengono da dataset pubblici e documenti nostri — mai dagli upload degli utenti. Vedi la nostra Informativa sulla privacy.

Quanto è accurato ScanToExcel?

ScanToExcel raggiunge il 98,0 % di accuratezza ponderata su 3000 documenti reali in sei tipi. Fatture 99,5 %, immagini di tabelle 99,2 %, estratti carta 98,8 %, scontrini 97,3 %, estratti conto bancari 98,7 % e buste paga 94,6 %.

Quale tipo di documento è il più accurato?

Le fatture, con 99,5 % F1 su 600 documenti reali. Immagini di tabelle (99,2 %) ed estratti carta (98,8 %) sono molto vicini.

Quale tipo è il meno accurato?

Le buste paga, 94,6 % F1 — soprattutto perché hanno lo schema più grande (40 campi) e i layout dei datori di lavoro variano molto. Intestazioni, totali e voci restano sopra il 92 %; i punti deboli sono il parsing delle aliquote e la classificazione SALARY vs HOURLY.

Quanto è veloce una conversione?

La maggior parte dei documenti viene convertita in 2 – 7 secondi. Scontrini e immagini di tabelle sono i più rapidi (mediana 2,3 – 2,6 s); gli estratti conto bancari sono i più lenti (mediana 10,2 s, p95 17,2 s) perché sono i documenti più lunghi.

Cos'è F1?

F1 è la media armonica di precision e recall. Precision: "di ciò che abbiamo restituito, quanto era corretto". Recall: "di ciò che era davvero presente, quanto abbiamo catturato". F1 sintetizza entrambi in un solo numero — è lo standard del settore per OCR strutturato.

Testate su documenti reali?

Sì — e per chiarezza, nessuno è un upload utente. Il set è composto principalmente da scontrini, fatture, estratti conto e buste paga reali da dataset pubblici e documenti di nostra proprietà o concessi in licenza, più una porzione minore di documenti sintetici che generiamo noi stessi per stressare casi limite — layout insoliti, scansioni di bassa qualità e totali complicati.

I numeri di questa pagina sono reali?

Sì. Provengono direttamente dall'ultima valutazione contro il nostro set di 3000 documenti. Modello e prompt vengono rivalutati per intero prima di ogni rilascio.

Provalo sui tuoi documenti

I numeri aiutano, ma l'unico benchmark che conta sono i tuoi documenti. Carica un file — non serve registrarsi per le conversioni gratuite — e verifica.

Avvia una conversione gratuita
Prestazioni e accuratezza | ScanToExcel — misurato su documenti reali | ScanToExcel