Wydajność i dokładność | ScanToExcel — mierzone na prawdziwych dokumentach

Jak dokładny jest ScanToExcel?

Mierzymy ScanToExcel na zestawie 129 prawdziwych dokumentów — faktur, paragonów, wyciągów bankowych i kart, pasków wypłat oraz obrazów tabel — porównując każde wyodrębnione pole z ręcznie zweryfikowanym kluczem. Liczby poniżej to rzeczywiste wyniki naszej ostatniej oceny, nie marketing.

Najważniejsze liczby: Oceniamy pole po polu z F1, precision i recall (standard dla strukturalnego OCR). Na tej stronie pokazujemy F1 jako jedno "dokładność" w procentach dla czytelności. p50 / p95 to czasy konwersji od początku do końca, mediana i 95. percentyl.

Dokładność według typu dokumentu

Każdy typ jest oceniany na wszystkich swoich polach. "Dokładność" to F1 wyrażony w procentach — F1 łączy to, jak często odpowiadamy poprawnie (precision), z tym, ile z faktycznej zawartości udaje się złapać (recall). Prędkość mierzona end-to-end z uploadem i przetwarzaniem AI.

Typ dokumentu	Dokumenty	Dokładność	Precision	Recall	Mediana (p50)	Wolny przypadek (p95)
Faktury	600	99,5%	0.993	0.997	3.3 s	5.1 s
Obrazy tabel	200	99,2%	0.992	0.992	2.6 s	7.0 s
Wyciągi z kart	500	98,8%	0.989	0.987	6.4 s	8.8 s
Wyciągi bankowe	650	98,7%	0.989	0.985	10.2 s	17.2 s
Paragony	600	97,3%	0.959	0.988	2.3 s	3.1 s
Paski wypłat	450	94,6%	0.952	0.940	5.5 s	8.7 s

Te wartości pochodzą z naszego wewnętrznego zestawu testowego z tej daty — opisują, jak silnik poradził sobie z tymi fixtureami, i nie są gwarantowanym wynikiem dla konkretnego przesłanego dokumentu. Rzeczywista dokładność zależy od jakości obrazu, układu, języka i formatu dokumentu.

Dokumenty wyodrębnione bezbłędnie

F1 na poziomie pól informuje o średniej poprawności, ale nie o tym, jak często dokument wraca w pełni poprawny od początku do końca. Dlatego mierzymy także to. Poniżej udział fixtures, w których każde oceniane pole zgadzało się z ręcznie zweryfikowanym kluczem odpowiedzi — czyli dokument wrócił gotowy do użycia, bez nic do poprawienia.

Spośród wszystkich 3000 fixtures 94,8% wróciło z każdym polem poprawnym. Większość przesłanych dokumentów z naszego zestawu testowego wraca gotowa do użycia — ale mniejszość wciąż wymaga szybkiej weryfikacji.

Typ dokumentu	Fixtures	W pełni poprawny
Faktury	600	96,2%
Tabele z obrazu	200	95,9%
Wyciągi z kart kredytowych	500	95,7%
Wyciągi bankowe	650	95,2%
Paragony	600	93,9%
Paski wypłaty	450	92,1%

To nadal liczby z zestawu testowego, a nie gwarancja dla konkretnego przesłanego pliku — obowiązują te same zastrzeżenia co przy tabeli powyżej.

Walidacja na zbiorze odłożonym

Oprócz głównego zbioru trzymamy mały zbiór, którego model nigdy nie widział podczas rozwoju. Liczby w nawiasach to liczba dokumentów.

Typ dokumentu	Zbiór główny	Zbiór odłożony	Δ
Faktury	99,5% (n=600)	97,8% (n=150)	−0.017
Obrazy tabel	99,2% (n=200)	96,7% (n=50)	−0.025
Wyciągi z kart	98,8% (n=500)	99,9% (n=130)	+0.011
Wyciągi bankowe	98,7% (n=650)	99,8% (n=160)	+0.011
Paragony	97,3% (n=600)	98,6% (n=150)	+0.013
Paski wypłat	94,6% (n=450)	95,3% (n=110)	+0.007

Paragony, wyciągi bankowe, kart i paski wypłat osiągają na zbiorze nieznanym wręcz wyższe wyniki — silny dowód, że model generalizuje, a nie zapamiętuje. Faktury i obrazy tabel są nieco niżej na zbiorze odłożonym; to uczciwy sygnał, że ten mały zbiór ma trudniejsze przypadki brzegowe (i że na tych typach mamy jeszcze pole do poprawy).

Co oceniamy

Każdy dokument jest porównywany pole po polu z ręcznie sprawdzonym kluczem odpowiedzi. Oto pola oceniane dla każdego typu dokumentu.

Faktury (16 fields)

issue date, due date, currency, vendor info, customer info, line items, subtotal, tax, tax-inclusive flag, tax rows, line tax fields, total and withholdings.

Obrazy tabel (5 fields)

header rows, header cell, row identification, row type and row cell.

Wyciągi z kart (20 fields)

card network, holder, statement period, payment due date, minimum payment due, credit limit, available credit, summary purchases, summary payments, summary fees, summary interest, opening and closing balances, transactions, posted date, transaction type, transaction amount and currency.

Wyciągi bankowe (16 fields)

account holder, account currency, statement period, opening and closing balances, interest paid, fees charged, transactions, posted date, transaction type, transaction amount, running balance, credit total and debit total.

Paragony (11 fields)

date, currency, vendor, line items, subtotal, tax, tax row breakdown, tip, total and payment details.

Paski wypłat (40 fields)

employee, employer, country, currency, pay period, base pay rate and unit, annual salary, current net pay, summary YTD totals (gross, taxes, net), and per-row earnings, taxes, deductions and employer contributions (each with hours, rate, current amount and YTD).

Jak mierzymy

Prawdziwe dokumenty — nigdy Twoje

Nasz zbiór 3000 próbek to mieszanka dokumentów publicznie dost9pnych (otwarte zbiory OCR i publiczne próbki), danych, które zalicencjonowaliśmy i kupiliśmy, oraz dokumentów syntetycznych, które sami generujemy, by przetestować przypadki brzegowe. Czego nigdy tam nie ma: Twoich plików. Dokumenty, które przesyłasz do ScanToExcel, są przetwarzane w pamięci i usuwane w chwili, gdy Twój plik do pobrania jest gotowy — nigdy zapisane, nigdy użyte do trenowania modeli, nigdy dodane do tego benchmarku.

Ręcznie zweryfikowane klucze

Każda próbka ma ręcznie zweryfikowany wzorzec. Każde pole wyjścia modelu porównujemy pole po polu.

F1, precision, recall — na poziomie pola

Każde pole oceniamy jako true positive, false positive lub false negative. F1 (średnia harmoniczna precision i recall) jest wynikiem głównym — standard dla strukturalnego OCR.

Zbiór walidacyjny odłożony

Mały zbiór pozostaje poza rozwojem, by wykryć przeuczenie. Liczby są opublikowane powyżej.

Prędkość end-to-end

p50 i p95 to czasy zegarowe od uploadu do gotowego pliku wyjściowego, włącznie z przetwarzaniem AI.

Stała ponowna ocena

Każda zmiana modelu lub promptu jest ponownie oceniana na pełnym zbiorze przed wydaniem. Liczby odzwierciedlają model produkcyjny z 2026-05-05.

Najczęściej zadawane pytania

Czy używacie moich plików do trenowania AI lub rozbudowy tego benchmarku?

Nie. Pliki, które przesyłasz do ScanToExcel, są przetwarzane w pamięci i trwale usuwane w chwili, gdy Twój plik do pobrania jest gotowy. Nie przechowujemy ich, nie używamy do trenowania i nie dodajemy do zestawu ewaluacyjnego stojącego za tymi liczbami. 3000 dokumentów pochodzi z publicznych zbiorów danych i naszych własnych dokumentów — nigdy z plików użytkowników. Zobacz naszą Politykę prywatności.

Jak dokładny jest ScanToExcel?

ScanToExcel osiąga 98,0 % ważonej dokładności na 3000 prawdziwych dokumentach w sześciu typach. Faktury 99,5 %, obrazy tabel 99,2 %, wyciągi z kart 98,8 %, paragony 97,3 %, wyciągi bankowe 98,7 % i paski wypłat 94,6 %.

Który typ dokumentu jest najdokładniejszy?

Faktury, 99,5 % F1 na 600 prawdziwych dokumentach. Obrazy tabel (99,2 %) i wyciągi z kart (98,8 %) bardzo blisko.

Który typ jest najmniej dokładny?

Paski wypłat, 94,6 % F1 — głównie dlatego, że mają największy schemat (40 pól), a pracodawcy bardzo różnie je formatują. Nagłówki, sumy i pozycje są nadal powyżej 92 %; słabe punkty to parsowanie stawek i klasyfikacja SALARY vs HOURLY.

Jak szybka jest jedna konwersja?

Większość dokumentów jest gotowa w 2 – 7 sekund. Paragony i obrazy tabel są najszybsze (mediana 2,3 – 2,6 s); wyciągi bankowe trwają najdłużej (mediana 10,2 s, p95 17,2 s), bo to najdłuższe dokumenty.

Czym jest F1?

F1 to średnia harmoniczna precision i recall. Precision: "z tego, co zwróciliśmy, ile było poprawne". Recall: "z tego, co rzeczywiście było, ile złapaliśmy". F1 łączy oba w jedną liczbę — standard dla strukturalnego OCR.

Testujecie na prawdziwych dokumentach?

Tak — i dla jasności: żaden z nich nie pochodzi od użytkownika. Zbiór składa się głównie z prawdziwych paragonów, faktur, wyciągów i pasków wypłat z publicznych datasetów oraz dokumentów, które posiadamy lub mamy na licencji, plus mniejszą część stanowią dokumenty syntetyczne, które generujemy sami, aby testować przypadki brzegowe — nietypowe układy, słabej jakości skany i trudne sumy.

Czy liczby na tej stronie są prawdziwe?

Tak. Pochodzą wprost z ostatniej oceny na naszym zestawie 3000 dokumentów. Model i prompty są w pełni ponownie oceniane przed każdym wydaniem.

Wypróbuj na własnych dokumentach

Liczby pomagają, ale jedynym benchmarkiem, który się liczy, są twoje dokumenty. Wyślij plik — bez rejestracji do darmowych konwersji — i przekonaj się.

Rozpocznij darmową konwersję