Jak dokładny jest ScanToExcel?
Mierzymy ScanToExcel na zestawie 129 prawdziwych dokumentów — faktur, paragonów, wyciągów bankowych i kart, pasków wypłat oraz obrazów tabel — porównując każde wyodrębnione pole z ręcznie zweryfikowanym kluczem. Liczby poniżej to rzeczywiste wyniki naszej ostatniej oceny, nie marketing.
Dokładność według typu dokumentu
Każdy typ jest oceniany na wszystkich swoich polach. "Dokładność" to F1 wyrażony w procentach — F1 łączy to, jak często odpowiadamy poprawnie (precision), z tym, ile z faktycznej zawartości udaje się złapać (recall). Prędkość mierzona end-to-end z uploadem i przetwarzaniem AI.
| Typ dokumentu | Dokumenty | Dokładność |
|---|---|---|
| Faktury | 600 | 99,5% |
| Obrazy tabel | 200 | 99,2% |
| Wyciągi z kart | 500 | 98,8% |
| Wyciągi bankowe | 650 | 98,7% |
| Paragony | 600 | 97,3% |
| Paski wypłat | 450 | 94,6% |
Te wartości pochodzą z naszego wewnętrznego zestawu testowego z tej daty — opisują, jak silnik poradził sobie z tymi fixtureami, i nie są gwarantowanym wynikiem dla konkretnego przesłanego dokumentu. Rzeczywista dokładność zależy od jakości obrazu, układu, języka i formatu dokumentu.
Dokumenty wyodrębnione bezbłędnie
F1 na poziomie pól informuje o średniej poprawności, ale nie o tym, jak często dokument wraca w pełni poprawny od początku do końca. Dlatego mierzymy także to. Poniżej udział fixtures, w których każde oceniane pole zgadzało się z ręcznie zweryfikowanym kluczem odpowiedzi — czyli dokument wrócił gotowy do użycia, bez nic do poprawienia.
| Typ dokumentu | Fixtures | W pełni poprawny |
|---|---|---|
| Faktury | 600 | 96,2% |
| Tabele z obrazu | 200 | 95,9% |
| Wyciągi z kart kredytowych | 500 | 95,7% |
| Wyciągi bankowe | 650 | 95,2% |
| Paragony | 600 | 93,9% |
| Paski wypłaty | 450 | 92,1% |
To nadal liczby z zestawu testowego, a nie gwarancja dla konkretnego przesłanego pliku — obowiązują te same zastrzeżenia co przy tabeli powyżej.
Walidacja na zbiorze odłożonym
Oprócz głównego zbioru trzymamy mały zbiór, którego model nigdy nie widział podczas rozwoju. Liczby w nawiasach to liczba dokumentów.
| Typ dokumentu | Zbiór główny | Zbiór odłożony | Δ |
|---|---|---|---|
| Faktury | 99,5% (n=600) | 97,8% (n=150) | −0.017 |
| Obrazy tabel | 99,2% (n=200) | 96,7% (n=50) | −0.025 |
| Wyciągi z kart | 98,8% (n=500) | 99,9% (n=130) | +0.011 |
| Wyciągi bankowe | 98,7% (n=650) | 99,8% (n=160) | +0.011 |
| Paragony | 97,3% (n=600) | 98,6% (n=150) | +0.013 |
| Paski wypłat | 94,6% (n=450) | 95,3% (n=110) | +0.007 |
Paragony, wyciągi bankowe, kart i paski wypłat osiągają na zbiorze nieznanym wręcz wyższe wyniki — silny dowód, że model generalizuje, a nie zapamiętuje. Faktury i obrazy tabel są nieco niżej na zbiorze odłożonym; to uczciwy sygnał, że ten mały zbiór ma trudniejsze przypadki brzegowe (i że na tych typach mamy jeszcze pole do poprawy).
Co oceniamy
Każdy dokument jest porównywany pole po polu z ręcznie sprawdzonym kluczem odpowiedzi. Oto pola oceniane dla każdego typu dokumentu.
Faktury (16 fields)
issue date, due date, currency, vendor info, customer info, line items, subtotal, tax, tax-inclusive flag, tax rows, line tax fields, total and withholdings.
Obrazy tabel (5 fields)
header rows, header cell, row identification, row type and row cell.
Wyciągi z kart (20 fields)
card network, holder, statement period, payment due date, minimum payment due, credit limit, available credit, summary purchases, summary payments, summary fees, summary interest, opening and closing balances, transactions, posted date, transaction type, transaction amount and currency.
Wyciągi bankowe (16 fields)
account holder, account currency, statement period, opening and closing balances, interest paid, fees charged, transactions, posted date, transaction type, transaction amount, running balance, credit total and debit total.
Paragony (11 fields)
date, currency, vendor, line items, subtotal, tax, tax row breakdown, tip, total and payment details.
Paski wypłat (40 fields)
employee, employer, country, currency, pay period, base pay rate and unit, annual salary, current net pay, summary YTD totals (gross, taxes, net), and per-row earnings, taxes, deductions and employer contributions (each with hours, rate, current amount and YTD).
Jak mierzymy
Prawdziwe dokumenty — nigdy Twoje
Nasz zbiór 3000 próbek to mieszanka dokumentów publicznie dost9pnych (otwarte zbiory OCR i publiczne próbki), danych, które zalicencjonowaliśmy i kupiliśmy, oraz dokumentów syntetycznych, które sami generujemy, by przetestować przypadki brzegowe. Czego nigdy tam nie ma: Twoich plików. Dokumenty, które przesyłasz do ScanToExcel, są przetwarzane w pamięci i usuwane w chwili, gdy Twój plik do pobrania jest gotowy — nigdy zapisane, nigdy użyte do trenowania modeli, nigdy dodane do tego benchmarku.
Ręcznie zweryfikowane klucze
Każda próbka ma ręcznie zweryfikowany wzorzec. Każde pole wyjścia modelu porównujemy pole po polu.
F1, precision, recall — na poziomie pola
Każde pole oceniamy jako true positive, false positive lub false negative. F1 (średnia harmoniczna precision i recall) jest wynikiem głównym — standard dla strukturalnego OCR.
Zbiór walidacyjny odłożony
Mały zbiór pozostaje poza rozwojem, by wykryć przeuczenie. Liczby są opublikowane powyżej.
Prędkość end-to-end
p50 i p95 to czasy zegarowe od uploadu do gotowego pliku wyjściowego, włącznie z przetwarzaniem AI.
Stała ponowna ocena
Każda zmiana modelu lub promptu jest ponownie oceniana na pełnym zbiorze przed wydaniem. Liczby odzwierciedlają model produkcyjny z 2026-05-05.
Najczęściej zadawane pytania
Czy używacie moich plików do trenowania AI lub rozbudowy tego benchmarku?
Nie. Pliki, które przesyłasz do ScanToExcel, są przetwarzane w pamięci i trwale usuwane w chwili, gdy Twój plik do pobrania jest gotowy. Nie przechowujemy ich, nie używamy do trenowania i nie dodajemy do zestawu ewaluacyjnego stojącego za tymi liczbami. 3000 dokumentów pochodzi z publicznych zbiorów danych i naszych własnych dokumentów — nigdy z plików użytkowników. Zobacz naszą Politykę prywatności.
Jak dokładny jest ScanToExcel?
ScanToExcel osiąga 98,0 % ważonej dokładności na 3000 prawdziwych dokumentach w sześciu typach. Faktury 99,5 %, obrazy tabel 99,2 %, wyciągi z kart 98,8 %, paragony 97,3 %, wyciągi bankowe 98,7 % i paski wypłat 94,6 %.
Który typ dokumentu jest najdokładniejszy?
Faktury, 99,5 % F1 na 600 prawdziwych dokumentach. Obrazy tabel (99,2 %) i wyciągi z kart (98,8 %) bardzo blisko.
Który typ jest najmniej dokładny?
Paski wypłat, 94,6 % F1 — głównie dlatego, że mają największy schemat (40 pól), a pracodawcy bardzo różnie je formatują. Nagłówki, sumy i pozycje są nadal powyżej 92 %; słabe punkty to parsowanie stawek i klasyfikacja SALARY vs HOURLY.
Jak szybka jest jedna konwersja?
Większość dokumentów jest gotowa w 2 – 7 sekund. Paragony i obrazy tabel są najszybsze (mediana 2,3 – 2,6 s); wyciągi bankowe trwają najdłużej (mediana 10,2 s, p95 17,2 s), bo to najdłuższe dokumenty.
Czym jest F1?
F1 to średnia harmoniczna precision i recall. Precision: "z tego, co zwróciliśmy, ile było poprawne". Recall: "z tego, co rzeczywiście było, ile złapaliśmy". F1 łączy oba w jedną liczbę — standard dla strukturalnego OCR.
Testujecie na prawdziwych dokumentach?
Tak — i dla jasności: żaden z nich nie pochodzi od użytkownika. Zbiór składa się głównie z prawdziwych paragonów, faktur, wyciągów i pasków wypłat z publicznych datasetów oraz dokumentów, które posiadamy lub mamy na licencji, plus mniejszą część stanowią dokumenty syntetyczne, które generujemy sami, aby testować przypadki brzegowe — nietypowe układy, słabej jakości skany i trudne sumy.
Czy liczby na tej stronie są prawdziwe?
Tak. Pochodzą wprost z ostatniej oceny na naszym zestawie 3000 dokumentów. Model i prompty są w pełni ponownie oceniane przed każdym wydaniem.
Wypróbuj na własnych dokumentach
Liczby pomagają, ale jedynym benchmarkiem, który się liczy, są twoje dokumenty. Wyślij plik — bez rejestracji do darmowych konwersji — i przekonaj się.
Rozpocznij darmową konwersję