Question 1

Utilisez-vous mes fichiers pour entraîner une IA ou enrichir ce benchmark ?

Accepted Answer

Non. Les fichiers que vous téléversez sur ScanToExcel sont traités en mémoire et définitivement supprimés dès que votre téléchargement est prêt. Nous ne les stockons pas, ne les utilisons pas pour l'entraînement et ne les ajoutons pas au jeu d'évaluation derrière ces chiffres. Les 3000 documents proviennent de jeux de données publics et de nos propres documents — jamais de fichiers utilisateurs. Voir notre Politique de confidentialité.

Question 2

Quelle est la précision de ScanToExcel ?

Accepted Answer

ScanToExcel atteint 98,0 % de précision pondérée sur 3000 documents réels couvrant six types. Factures 99,5 %, images de tableaux 99,2 %, relevés de carte 98,8 %, reçus 97,3 %, relevés bancaires 98,7 % et fiches de paie 94,6 %.

Question 3

Quel type de document est le plus précis ?

Accepted Answer

Les factures, à 99,5 % F1 sur 600 documents réels. Les images de tableaux (99,2 %) et les relevés de carte (98,8 %) suivent de près.

Question 4

Quel type est le moins précis ?

Accepted Answer

Les fiches de paie, 94,6 % F1 — surtout parce que c'est le plus gros schéma (40 champs) et que les employeurs ont des mises en page très variées. En-têtes, totaux et lignes restent au-dessus de 92 % ; les points faibles sont le parsing des taux et la classification SALARY vs HOURLY.

Question 5

Une conversion prend combien de temps ?

Accepted Answer

La plupart des documents sont convertis en 2 – 7 secondes. Reçus et images de tableaux sont les plus rapides (médiane 2,3 – 2,6 s) ; les relevés bancaires sont les plus longs (médiane 10,2 s, p95 17,2 s) parce que ce sont les documents les plus longs.

Question 6

Qu'est-ce que le F1 ?

Accepted Answer

F1 est la moyenne harmonique de precision et recall. Precision : "sur ce que nous avons renvoyé, combien était correct". Recall : "sur ce qui était réellement là, combien avons-nous capturé". F1 résume les deux en un seul nombre — standard de l'industrie pour l'OCR structuré.

Question 7

Testez-vous sur de vrais documents ?

Accepted Answer

Oui — et pour être clair, aucun n'est un fichier utilisateur. Le jeu est composé principalement de vrais reçus, factures, relevés et bulletins de paie issus de jeux publics et de documents que nous possédons ou avons sous licence, plus une part plus petite de documents synthétiques que nous générons nous-mêmes pour tester les cas limites — mises en page inhabituelles, scans de mauvaise qualité, totaux délicats.

Question 8

Les chiffres de cette page sont-ils réels ?

Accepted Answer

Oui. Ils proviennent directement de la dernière évaluation contre notre jeu de 3000 documents. Modèle et prompts sont entièrement réévalués avant chaque publication.

Type de document	Documents	Précision	Precision	Recall	Médiane (p50)	Cas lent (p95)
Factures	600	99,5%	0.993	0.997	3.3 s	5.1 s
Images de tableaux	200	99,2%	0.992	0.992	2.6 s	7.0 s
Relevés de carte	500	98,8%	0.989	0.987	6.4 s	8.8 s
Relevés bancaires	650	98,7%	0.989	0.985	10.2 s	17.2 s
Reçus	600	97,3%	0.959	0.988	2.3 s	3.1 s
Fiches de paie	450	94,6%	0.952	0.940	5.5 s	8.7 s

Type de document	Fixtures	Entièrement correct
Factures	600	96,2%
Tableaux en image	200	95,9%
Relevés de carte de crédit	500	95,7%
Relevés bancaires	650	95,2%
Reçus	600	93,9%
Bulletins de salaire	450	92,1%

Type de document	Jeu principal	Jeu réservé	Δ
Factures	99,5% (n=600)	97,8% (n=150)	−0.017
Images de tableaux	99,2% (n=200)	96,7% (n=50)	−0.025
Relevés de carte	98,8% (n=500)	99,9% (n=130)	+0.011
Relevés bancaires	98,7% (n=650)	99,8% (n=160)	+0.011
Reçus	97,3% (n=600)	98,6% (n=150)	+0.013
Fiches de paie	94,6% (n=450)	95,3% (n=110)	+0.007

Performance

Quelle est la précision de ScanToExcel ?

Précision par type de document

Documents extraits sans erreur

Validation sur jeu réservé

Ce que nous évaluons

Factures (16 fields)

Images de tableaux (5 fields)

Relevés de carte (20 fields)

Relevés bancaires (16 fields)

Reçus (11 fields)

Fiches de paie (40 fields)

Comment nous mesurons

De vrais documents — jamais les vôtres

Corrigés vérifiés à la main

F1, precision, recall — au niveau du champ

Jeu de validation réservé

Vitesse de bout en bout

Réévaluation continue

Foire aux questions

Utilisez-vous mes fichiers pour entraîner une IA ou enrichir ce benchmark ?

Quelle est la précision de ScanToExcel ?

Quel type de document est le plus précis ?

Quel type est le moins précis ?

Une conversion prend combien de temps ?

Qu'est-ce que le F1 ?

Testez-vous sur de vrais documents ?

Les chiffres de cette page sont-ils réels ?

Essayez sur vos propres documents