Prestaties & nauwkeurigheid | ScanToExcel — gemeten op echte documenten

Hoe nauwkeurig is ScanToExcel?

We meten ScanToExcel tegen een set van 3000 echte documenten — facturen, bonnen, bank- en creditcardafschriften, loonstroken en tabelafbeeldingen — en vergelijken elk geëxtraheerd veld met een handmatig geverifieerd antwoord. De cijfers hieronder zijn de werkelijke resultaten van onze laatste evaluatie, geen marketingclaims.

Kerncijfers: We scoren per veld met F1, precision en recall (de standaard voor gestructureerde OCR). Op deze pagina tonen we F1 als één "nauwkeurigheids"-percentage voor leesbaarheid. p50 / p95 zijn mediane en 95-percentiel end-to-end conversietijden.

Nauwkeurigheid per documenttype

Elk type wordt over al zijn velden gescoord. "Nauwkeurigheid" is de F1-score als percentage — F1 combineert hoe vaak we iets goed teruggeven (precision) en hoeveel van wat er werkelijk stond we vangen (recall). Snelheid is end-to-end, inclusief upload en AI-verwerking.

Documenttype	Documenten	Nauwkeurigheid	Precision	Recall	Mediaan (p50)	Traag geval (p95)
Facturen	600	99,5%	0.993	0.997	3.3 s	5.1 s
Tabelafbeeldingen	200	99,2%	0.992	0.992	2.6 s	7.0 s
Creditcardafschriften	500	98,8%	0.989	0.987	6.4 s	8.8 s
Bankafschriften	650	98,7%	0.989	0.985	10.2 s	17.2 s
Bonnen	600	97,3%	0.959	0.988	2.3 s	3.1 s
Loonstroken	450	94,6%	0.952	0.940	5.5 s	8.7 s

Deze cijfers komen uit onze interne testset op deze datum — ze beschrijven hoe de engine presteerde op die fixtures en zijn geen gegarandeerd resultaat voor een specifiek document dat je uploadt. De werkelijke nauwkeurigheid varieert per beeldkwaliteit, lay-out, taal en documentformaat.

Documenten foutloos geëxtraheerd

F1 op veldniveau zegt iets over gemiddelde correctheid, maar niet hoe vaak een document end-to-end volledig juist terugkomt. Daarom houden we ook dat bij. Hieronder het aandeel fixtures waarbij elk geëvalueerd veld overeenkwam met de handmatig gecontroleerde antwoordsleutel — het document kwam dus klaar voor gebruik terug, zonder iets te corrigeren.

Over alle 3.000 fixtures kwam 94,8% terug met elk veld correct. De meeste uploads in onze testset komen klaar voor gebruik terug — maar een minderheid heeft toch nog een snelle controle nodig.

Documenttype	Fixtures	Volledig correct
Facturen	600	96,2%
Tabellen in afbeelding	200	95,9%
Creditcardafschriften	500	95,7%
Bankafschriften	650	95,2%
Bonnetjes	600	93,9%
Loonstroken	450	92,1%

Dit zijn nog steeds testset-cijfers, geen garantie voor een specifieke upload — dezelfde voorbehouden uit de tabel hierboven gelden.

Held-out-validatie

Naast de hoofdset houden we een kleine held-out-set apart die het model tijdens de ontwikkeling nooit heeft gezien. Getallen tussen haakjes zijn het aantal documenten.

Documenttype	Hoofdset	Held-out-set	Δ
Facturen	99,5% (n=600)	97,8% (n=150)	−0.017
Tabelafbeeldingen	99,2% (n=200)	96,7% (n=50)	−0.025
Creditcardafschriften	98,8% (n=500)	99,9% (n=130)	+0.011
Bankafschriften	98,7% (n=650)	99,8% (n=160)	+0.011
Bonnen	97,3% (n=600)	98,6% (n=150)	+0.013
Loonstroken	94,6% (n=450)	95,3% (n=110)	+0.007

Bonnen, bank-, creditcardafschriften en loonstroken scoren juist hoger op de ongeziene set — sterk bewijs dat het model generaliseert in plaats van memoriseert. Facturen en tabelafbeeldingen zakken iets op de held-out-set; eerlijk signaal dat die kleine set lastigere randgevallen bevat (en dat we op die types nog ruimte hebben).

Wat we scoren

Elk document wordt veld voor veld vergeleken met een handmatig gecontroleerde sleutel. Dit zijn de velden die per documenttype worden gescoord.

Facturen (16 fields)

issue date, due date, currency, vendor info, customer info, line items, subtotal, tax, tax-inclusive flag, tax rows, line tax fields, total and withholdings.

Tabelafbeeldingen (5 fields)

header rows, header cell, row identification, row type and row cell.

Creditcardafschriften (20 fields)

card network, holder, statement period, payment due date, minimum payment due, credit limit, available credit, summary purchases, summary payments, summary fees, summary interest, opening and closing balances, transactions, posted date, transaction type, transaction amount and currency.

Bankafschriften (16 fields)

account holder, account currency, statement period, opening and closing balances, interest paid, fees charged, transactions, posted date, transaction type, transaction amount, running balance, credit total and debit total.

Bonnen (11 fields)

date, currency, vendor, line items, subtotal, tax, tax row breakdown, tip, total and payment details.

Loonstroken (40 fields)

employee, employer, country, currency, pay period, base pay rate and unit, annual salary, current net pay, summary YTD totals (gross, taxes, net), and per-row earnings, taxes, deductions and employer contributions (each with hours, rate, current amount and YTD).

Hoe we meten

Echte documenten — nooit die van jou

Onze set van 3000 voorbeelden is een mix van publiek beschikbare documenten (open OCR-datasets en publieke voorbeelden), data die we hebben gelicentieerd en gekocht, en synthetische documenten die we zelf genereren om randgevallen onder druk te zetten. Wat er nooit in zit: jouw bestanden. Documenten die je naar ScanToExcel uploadt, worden in het geheugen verwerkt en verwijderd zodra je download klaar is — nooit opgeslagen, nooit gebruikt om modellen te trainen, nooit toegevoegd aan deze benchmark.

Handmatig gecontroleerde antwoorden

Elk voorbeeld heeft een handmatig geverifieerde ground truth. Elk uitgevoerd veld wordt veld voor veld vergeleken.

F1, precision, recall — op veldniveau

We scoren elk veld als true positive, false positive of false negative. F1 (harmonisch gemiddelde van precision en recall) is de hoofdscore — standaard voor gestructureerde OCR.

Held-out validatieset

Een kleine set blijft buiten ontwikkeling om overfitting te detecteren. De cijfers staan hierboven.

End-to-end snelheid

p50 en p95 zijn kloktijden van uploaden tot uitvoerbestand klaar, inclusief AI-verwerking.

Continu herwogen

Elke model- of promptwijziging wordt vóór release opnieuw getest tegen de hele set. De cijfers weerspiegelen het productiemodel op 2026-05-05.

Veelgestelde vragen

Gebruiken jullie mijn uploads om AI te trainen of deze benchmark uit te breiden?

Nee. Bestanden die je naar ScanToExcel uploadt, worden in het geheugen verwerkt en definitief verwijderd zodra je download klaar is. We slaan ze niet op, gebruiken ze niet voor training en voegen ze niet toe aan de evaluatieset achter deze cijfers. De 3000 documenten komen uit openbare datasets en onze eigen documenten — niet uit gebruikersuploads. Zie ons Privacybeleid.

Hoe nauwkeurig is ScanToExcel?

ScanToExcel haalt 98,0 % gewogen nauwkeurigheid op 3000 echte documenten in zes types. Facturen 99,5 %, tabelafbeeldingen 99,2 %, creditcardafschriften 98,8 %, bonnen 97,3 %, bankafschriften 98,7 % en loonstroken 94,6 %.

Welk documenttype is het meest nauwkeurig?

Facturen, met 99,5 % F1 op 600 echte documenten. Tabelafbeeldingen (99,2 %) en creditcardafschriften (98,8 %) zitten er dichtbij.

Welk type is het minst nauwkeurig?

Loonstroken, 94,6 % F1 — vooral omdat ze het grootste schema hebben (40 velden) en werkgevers heel verschillend opmaken. Headers, totalen en regelposten blijven boven 92 %; zwakke punten zijn het parsen van tarieven en de classificatie SALARY vs HOURLY.

Hoe snel is één conversie?

De meeste documenten zijn klaar in 2 – 7 seconden. Bonnen en tabelafbeeldingen zijn het snelst (mediaan 2,3 – 2,6 s); bankafschriften duren het langst (mediaan 10,2 s, p95 17,2 s) omdat ze de langste documenten zijn.

Wat is F1?

F1 is het harmonisch gemiddelde van precision en recall. Precision: "van wat we teruggeven, hoeveel klopte". Recall: "van wat er echt stond, hoeveel pakten we op". F1 vat beide in één getal — standaard voor gestructureerde OCR.

Testen jullie op echte documenten?

Ja — en voor de duidelijkheid: geen daarvan is een gebruikersupload. De set bestaat voornamelijk uit echte bonnen, facturen, afschriften en loonstroken uit openbare datasets en documenten die wij bezitten of in licentie hebben, plus een kleiner deel synthetische documenten die we zelf genereren om randgevallen onder druk te zetten — ongebruikelijke lay-outs, scans van slechte kwaliteit en lastige totalen.

Zijn de cijfers op deze pagina echt?

Ja. Ze komen direct uit de laatste evaluatie tegen onze set van 3000 documenten. Model en prompts worden volledig opnieuw geëvalueerd vóór elke release.

Probeer het op je eigen documenten

Cijfers helpen, maar de enige benchmark die telt zijn jouw documenten. Upload een bestand — geen registratie nodig voor gratis conversies — en zie het zelf.

Start een gratis conversie