Wie genau ist ScanToExcel?
Wir messen ScanToExcel an einem Testset von 3000 echten Dokumenten — Rechnungen, Quittungen, Konto- und Kreditkartenauszüge, Gehaltsabrechnungen und Tabellenbilder — und vergleichen jedes extrahierte Feld mit einer von Hand geprüften Lösung. Die Zahlen unten sind die tatsächlichen Ergebnisse unseres letzten Evaluations-Laufs, keine Marketing-Aussagen.
Genauigkeit nach Dokumenttyp
Jeder Dokumenttyp wird über alle seine Felder bewertet. „Genauigkeit“ ist der F1-Score in Prozent — F1 kombiniert, wie oft wir etwas korrekt sagen (Precision), und wie viel von dem, was wirklich da ist, wir erfassen (Recall). Geschwindigkeit ist Ende-zu-Ende, inklusive Upload und KI-Verarbeitung.
| Dokumenttyp | Testdokumente | Genauigkeit |
|---|---|---|
| Rechnungen | 600 | 99,5% |
| Tabellenbilder | 200 | 99,2% |
| Kreditkartenabrechnungen | 500 | 98,8% |
| Kontoauszüge | 650 | 98,7% |
| Quittungen | 600 | 97,3% |
| Gehaltsabrechnungen | 450 | 94,6% |
Diese Werte stammen aus unserem internen Testset zu diesem Stichtag – sie beschreiben, wie das System auf diesen Fixtures abgeschnitten hat, und stellen kein zugesichertes Ergebnis für ein konkret von dir hochgeladenes Dokument dar. Die reale Genauigkeit hängt von Bildqualität, Layout, Sprache und Dokumentformat ab.
Vollständig korrekt extrahierte Dokumente
Der F1 auf Feldebene sagt etwas über die durchschnittliche Korrektheit aus, aber nicht, wie oft ein Dokument durchgehend fehlerfrei zurückkommt. Deshalb messen wir auch das. Unten findest du den Anteil der Fixtures, bei denen jedes evaluierte Feld dem manuell geprüften Antwort-Key entsprach – das Dokument kam also direkt einsatzbereit zurück, ohne Nacharbeit.
| Dokumenttyp | Fixtures | Vollständig korrekt |
|---|---|---|
| Rechnungen | 600 | 96,2% |
| Bildtabellen | 200 | 95,9% |
| Kreditkartenabrechnungen | 500 | 95,7% |
| Kontoauszüge | 650 | 95,2% |
| Quittungen | 600 | 93,9% |
| Gehaltsabrechnungen | 450 | 92,1% |
Auch dies sind Testset-Zahlen und keine Zusicherung für ein konkretes Upload – die Einschränkungen aus der Tabelle oben gelten weiterhin.
Held-out-Validierung
Zusätzlich zum Hauptset halten wir ein kleines Set zurück, das das Modell während der Entwicklung nie gesehen hat. Zahlen in Klammern sind die Anzahl der Testdokumente.
| Dokumenttyp | Hauptset | Held-out-Set | Δ |
|---|---|---|---|
| Rechnungen | 99,5% (n=600) | 97,8% (n=150) | −0.017 |
| Tabellenbilder | 99,2% (n=200) | 96,7% (n=50) | −0.025 |
| Kreditkartenabrechnungen | 98,8% (n=500) | 99,9% (n=130) | +0.011 |
| Kontoauszüge | 98,7% (n=650) | 99,8% (n=160) | +0.011 |
| Quittungen | 97,3% (n=600) | 98,6% (n=150) | +0.013 |
| Gehaltsabrechnungen | 94,6% (n=450) | 95,3% (n=110) | +0.007 |
Quittungen, Kontoauszüge, Kreditkartenabrechnungen und Gehaltsabrechnungen schneiden auf dem ungesehenen Set sogar besser ab — ein starker Hinweis, dass das Modell generalisiert statt auswendig zu lernen. Rechnungen und Tabellenbilder fallen auf dem Held-out-Set etwas ab; das ist ehrliches Signal, dass das kleine Set härtere Randfälle enthält (und dass wir auf diesen Typen noch Luft nach oben haben).
Was wir bewerten
Jede Vorlage wird Feld für Feld mit einer von Hand geprüften Lösung verglichen. Dies sind die Felder, die je Dokumenttyp bewertet werden.
Rechnungen (16 fields)
issue date, due date, currency, vendor info, customer info, line items, subtotal, tax, tax-inclusive flag, tax rows, line tax fields, total and withholdings.
Tabellenbilder (5 fields)
header rows, header cell, row identification, row type and row cell.
Kreditkartenabrechnungen (20 fields)
card network, holder, statement period, payment due date, minimum payment due, credit limit, available credit, summary purchases, summary payments, summary fees, summary interest, opening and closing balances, transactions, posted date, transaction type, transaction amount and currency.
Kontoauszüge (16 fields)
account holder, account currency, statement period, opening and closing balances, interest paid, fees charged, transactions, posted date, transaction type, transaction amount, running balance, credit total and debit total.
Quittungen (11 fields)
date, currency, vendor, line items, subtotal, tax, tax row breakdown, tip, total and payment details.
Gehaltsabrechnungen (40 fields)
employee, employer, country, currency, pay period, base pay rate and unit, annual salary, current net pay, summary YTD totals (gross, taxes, net), and per-row earnings, taxes, deductions and employer contributions (each with hours, rate, current amount and YTD).
So messen wir
Echte Dokumente — niemals Ihre
Unser Set aus 3000 Testdokumenten ist eine Mischung aus öffentlich verfügbaren Dokumenten (offene OCR-Datensätze und öffentliche Beispiele), lizenzierten und gekauften Daten sowie synthetischen Dokumenten, die wir selbst erzeugen, um Randfälle gezielt zu stressen. Was niemals dabei ist: Ihre Dateien. Dokumente, die Sie zu ScanToExcel hochladen, werden ausschließlich im Arbeitsspeicher verarbeitet und in dem Moment gelöscht, in dem Ihr Download bereit ist — sie werden nie gespeichert, nie für das Training verwendet und nie diesem Benchmark hinzugefügt.
Von Hand geprüfte Lösungen
Jedes Testdokument hat eine handgeprüfte Ground-Truth-Lösung. Jedes Ausgabefeld des Modells wird Feld für Feld verglichen.
F1, Precision, Recall — auf Feldebene
Wir bewerten jedes Feld als True Positive, False Positive oder False Negative. F1 (das harmonische Mittel aus Precision und Recall) wird als Schlagzeilen-Genauigkeit berichtet — Industriestandard für strukturiertes OCR.
Held-out-Validierungsset
Ein kleines Set bleibt zurückgehalten, das das Modell während der Entwicklung nie sieht — um Overfitting zu erkennen. Zahlen sind oben veröffentlicht.
Ende-zu-Ende-Geschwindigkeit
p50 und p95 sind Wanduhrzeiten ab dem Hochladen der Datei bis zur Bereitstellung der Ausgabedatei, inklusive KI-Verarbeitung.
Kontinuierliche Neubewertung
Jede Modell- oder Prompt-Änderung wird vor dem Ausrollen erneut gegen das volle Testset gefahren. Die Zahlen auf dieser Seite spiegeln das Produktionsmodell vom 2026-05-05 wider.
Häufig gestellte Fragen
Verwendet ihr meine Uploads, um KI zu trainieren oder dieses Benchmark zu erweitern?
Nein. Dateien, die Sie zu ScanToExcel hochladen, werden ausschließlich im Arbeitsspeicher verarbeitet und in dem Moment endgültig gelöscht, in dem Ihr Download bereit ist. Wir speichern sie nicht, trainieren nicht damit und fügen sie nicht zum Evaluationsset hinter diesen Zahlen hinzu. Die 3000 Testdokumente stammen aus öffentlichen Datensätzen und unseren eigenen Dokumenten — nicht aus Nutzer-Uploads. Details siehe Datenschutzerklärung.
Wie genau ist ScanToExcel?
ScanToExcel erreicht 98,0 % gewichtete Genauigkeit über 3000 echte Dokumente in sechs Dokumenttypen. Rechnungen 99,5 %, Tabellenbilder 99,2 %, Kreditkartenabrechnungen 98,8 %, Quittungen 97,3 %, Kontoauszüge 98,7 % und Gehaltsabrechnungen 94,6 %.
Welcher Dokumenttyp ist am genauesten?
Rechnungen, mit 99,5 % F1 über 600 echte Testdokumente. Tabellenbilder (99,2 %) und Kreditkartenabrechnungen (98,8 %) folgen knapp.
Welcher Dokumenttyp ist am wenigsten genau?
Gehaltsabrechnungen, mit 94,6 % F1 — vor allem, weil sie das größte Schema haben (40 Felder) und Arbeitgeber sehr unterschiedlich layouten. Header, Summen und Zeilenposten liegen weiterhin über 92 %; die Schwachstellen sind das Parsen von Sätzen und die Klassifizierung SALARY vs. HOURLY.
Wie schnell ist eine einzelne Konvertierung?
Die meisten Dokumente sind in 2 – 7 Sekunden fertig. Quittungen und Tabellenbilder am schnellsten (Median 2,3 – 2,6 s); Kontoauszüge brauchen am längsten (Median 10,2 s, 95 % unter 17,2 s), weil sie die längsten Dokumente sind.
Was ist der F1-Score?
F1 ist das harmonische Mittel aus Precision und Recall. Precision: „Wie viel von dem, was wir zurückgegeben haben, war richtig.“ Recall: „Wie viel von dem, was wirklich da war, haben wir erfasst.“ F1 fasst beides in einer Zahl zusammen — der Industriestandard für strukturiertes OCR.
Testen Sie auf echten Dokumenten?
Ja — und zur Klarstellung: keines davon ist ein Nutzer-Upload. Das Set besteht überwiegend aus echten Quittungen, Rechnungen, Auszügen und Gehaltsabrechnungen aus öffentlichen Datensätzen sowie Dokumenten, die uns gehören oder die wir lizenziert haben, plus einem kleineren Anteil synthetischer Dokumente, die wir selbst erzeugen, um Randfälle gezielt zu stressen — etwa ungewöhnliche Layouts, schlechte Scans und knifflige Summen.
Sind die Zahlen auf dieser Seite echt?
Ja. Sie stammen direkt aus dem letzten Evaluations-Lauf gegen unser 3000-Dokumente-Set. Modell und Prompts werden vor jedem Release vollständig neu bewertet.
Probieren Sie es mit Ihren eigenen Dokumenten
Zahlen sind nützlich, aber der einzige Benchmark, der zählt, sind Ihre eigenen Dokumente. Laden Sie eine Datei hoch — keine Anmeldung für kostenlose Konvertierungen nötig — und sehen Sie selbst.
Kostenlose Konvertierung starten