Quelle est la précision de ScanToExcel ?
Nous mesurons ScanToExcel sur un jeu de 3000 documents réels — factures, reçus, relevés bancaires et de carte, fiches de paie et images de tableaux — en comparant chaque champ extrait à un corrigé vérifié à la main. Les chiffres ci-dessous sont les résultats réels de notre dernière évaluation, pas du marketing.
Précision par type de document
Chaque type est évalué sur l'ensemble de ses champs. La "précision" est le score F1 en pourcentage — F1 combine la fréquence à laquelle nous renvoyons une bonne réponse (precision) et la part de ce qui était réellement présent que nous capturons (recall). La vitesse est mesurée de bout en bout, incluant l'envoi et le traitement par IA.
| Type de document | Documents | Précision |
|---|---|---|
| Factures | 600 | 99,5% |
| Images de tableaux | 200 | 99,2% |
| Relevés de carte | 500 | 98,8% |
| Relevés bancaires | 650 | 98,7% |
| Reçus | 600 | 97,3% |
| Fiches de paie | 450 | 94,6% |
Ces chiffres proviennent de notre jeu de tests interne à cette date — ils décrivent les performances du moteur sur ces fixtures et ne constituent pas un résultat garanti pour un document spécifique que vous téléchargez. La précision réelle varie selon la qualité de l'image, la mise en page, la langue et le format du document.
Documents extraits sans erreur
Le F1 au niveau du champ indique la justesse moyenne, mais pas à quelle fréquence un document ressort complètement correct de bout en bout. Nous suivons donc aussi cette mesure. Ci-dessous, la part des fixtures pour lesquels chaque champ évalué correspondait à la clé de réponses vérifiée à la main — autrement dit, le document est revenu prêt à l'emploi, sans rien à corriger.
| Type de document | Fixtures | Entièrement correct |
|---|---|---|
| Factures | 600 | 96,2% |
| Tableaux en image | 200 | 95,9% |
| Relevés de carte de crédit | 500 | 95,7% |
| Relevés bancaires | 650 | 95,2% |
| Reçus | 600 | 93,9% |
| Bulletins de salaire | 450 | 92,1% |
Ces chiffres restent ceux du jeu de tests, et non une garantie pour un envoi spécifique : les mêmes mises en garde que dans le tableau ci-dessus s'appliquent.
Validation sur jeu réservé
En plus du jeu principal, nous gardons un petit jeu réservé que le modèle n'a jamais vu en développement. Les nombres entre parenthèses sont le nombre de documents.
| Type de document | Jeu principal | Jeu réservé | Δ |
|---|---|---|---|
| Factures | 99,5% (n=600) | 97,8% (n=150) | −0.017 |
| Images de tableaux | 99,2% (n=200) | 96,7% (n=50) | −0.025 |
| Relevés de carte | 98,8% (n=500) | 99,9% (n=130) | +0.011 |
| Relevés bancaires | 98,7% (n=650) | 99,8% (n=160) | +0.011 |
| Reçus | 97,3% (n=600) | 98,6% (n=150) | +0.013 |
| Fiches de paie | 94,6% (n=450) | 95,3% (n=110) | +0.007 |
Reçus, relevés bancaires, de carte et fiches de paie obtiennent un score plus élevé sur le jeu non vu — preuve forte que le modèle généralise plutôt qu'il ne mémorise. Factures et images de tableaux baissent un peu sur le jeu réservé : signal honnête que ce petit jeu contient des cas plus durs (et qu'il reste de la marge sur ces types).
Ce que nous évaluons
Chaque document est comparé champ par champ à une clé de correction vérifiée à la main. Voici les champs évalués par type de document.
Factures (16 fields)
issue date, due date, currency, vendor info, customer info, line items, subtotal, tax, tax-inclusive flag, tax rows, line tax fields, total and withholdings.
Images de tableaux (5 fields)
header rows, header cell, row identification, row type and row cell.
Relevés de carte (20 fields)
card network, holder, statement period, payment due date, minimum payment due, credit limit, available credit, summary purchases, summary payments, summary fees, summary interest, opening and closing balances, transactions, posted date, transaction type, transaction amount and currency.
Relevés bancaires (16 fields)
account holder, account currency, statement period, opening and closing balances, interest paid, fees charged, transactions, posted date, transaction type, transaction amount, running balance, credit total and debit total.
Reçus (11 fields)
date, currency, vendor, line items, subtotal, tax, tax row breakdown, tip, total and payment details.
Fiches de paie (40 fields)
employee, employer, country, currency, pay period, base pay rate and unit, annual salary, current net pay, summary YTD totals (gross, taxes, net), and per-row earnings, taxes, deductions and employer contributions (each with hours, rate, current amount and YTD).
Comment nous mesurons
De vrais documents — jamais les vôtres
Notre jeu de 3000 échantillons combine des documents publiquement disponibles (jeux OCR ouverts et exemples publics), des données que nous avons licenciées et achetées, et des documents synthétiques que nous générons nous-mêmes pour mettre les cas limites sous pression. Ce qu'il n'y a jamais dedans : vos fichiers. Les documents que vous téléversez sur ScanToExcel sont traités en mémoire et supprimés dès que votre téléchargement est prêt — jamais stockés, jamais utilisés pour l'entraînement, jamais ajoutés à ce benchmark.
Corrigés vérifiés à la main
Chaque échantillon a une vérité de terrain vérifiée manuellement. Chaque champ de sortie du modèle est comparé champ par champ.
F1, precision, recall — au niveau du champ
Nous notons chaque champ comme vrai positif, faux positif ou faux négatif. F1 (la moyenne harmonique de precision et recall) est le score principal — standard de l'industrie pour l'OCR structuré.
Jeu de validation réservé
Un petit jeu est mis de côté que le modèle ne voit jamais en développement, pour détecter le surapprentissage. Les chiffres sont publiés ci-dessus.
Vitesse de bout en bout
p50 et p95 sont des temps réels depuis l'envoi du fichier jusqu'à la mise à disposition du fichier de sortie, traitement par IA inclus.
Réévaluation continue
Tout changement de modèle ou de prompt est ré-évalué sur le jeu complet avant publication. Les chiffres reflètent le modèle en production au 2026-05-05.
Foire aux questions
Utilisez-vous mes fichiers pour entraîner une IA ou enrichir ce benchmark ?
Non. Les fichiers que vous téléversez sur ScanToExcel sont traités en mémoire et définitivement supprimés dès que votre téléchargement est prêt. Nous ne les stockons pas, ne les utilisons pas pour l'entraînement et ne les ajoutons pas au jeu d'évaluation derrière ces chiffres. Les 3000 documents proviennent de jeux de données publics et de nos propres documents — jamais de fichiers utilisateurs. Voir notre Politique de confidentialité.
Quelle est la précision de ScanToExcel ?
ScanToExcel atteint 98,0 % de précision pondérée sur 3000 documents réels couvrant six types. Factures 99,5 %, images de tableaux 99,2 %, relevés de carte 98,8 %, reçus 97,3 %, relevés bancaires 98,7 % et fiches de paie 94,6 %.
Quel type de document est le plus précis ?
Les factures, à 99,5 % F1 sur 600 documents réels. Les images de tableaux (99,2 %) et les relevés de carte (98,8 %) suivent de près.
Quel type est le moins précis ?
Les fiches de paie, 94,6 % F1 — surtout parce que c'est le plus gros schéma (40 champs) et que les employeurs ont des mises en page très variées. En-têtes, totaux et lignes restent au-dessus de 92 % ; les points faibles sont le parsing des taux et la classification SALARY vs HOURLY.
Une conversion prend combien de temps ?
La plupart des documents sont convertis en 2 – 7 secondes. Reçus et images de tableaux sont les plus rapides (médiane 2,3 – 2,6 s) ; les relevés bancaires sont les plus longs (médiane 10,2 s, p95 17,2 s) parce que ce sont les documents les plus longs.
Qu'est-ce que le F1 ?
F1 est la moyenne harmonique de precision et recall. Precision : "sur ce que nous avons renvoyé, combien était correct". Recall : "sur ce qui était réellement là, combien avons-nous capturé". F1 résume les deux en un seul nombre — standard de l'industrie pour l'OCR structuré.
Testez-vous sur de vrais documents ?
Oui — et pour être clair, aucun n'est un fichier utilisateur. Le jeu est composé principalement de vrais reçus, factures, relevés et bulletins de paie issus de jeux publics et de documents que nous possédons ou avons sous licence, plus une part plus petite de documents synthétiques que nous générons nous-mêmes pour tester les cas limites — mises en page inhabituelles, scans de mauvaise qualité, totaux délicats.
Les chiffres de cette page sont-ils réels ?
Oui. Ils proviennent directement de la dernière évaluation contre notre jeu de 3000 documents. Modèle et prompts sont entièrement réévalués avant chaque publication.
Essayez sur vos propres documents
Les chiffres sont utiles, mais le seul benchmark qui compte, ce sont vos documents. Téléchargez un fichier — pas d'inscription nécessaire pour les conversions gratuites — et voyez par vous-même.
Lancer une conversion gratuite