Rendimiento y precisión | ScanToExcel — medido en documentos reales

¿Qué precisión tiene ScanToExcel?

Medimos ScanToExcel contra un conjunto de 3000 documentos reales — facturas, recibos, extractos bancarios y de tarjeta, nóminas e imágenes de tablas — comparando cada campo extraído con una clave de respuesta revisada manualmente. Las cifras son los resultados reales de nuestra última ejecución de evaluación, no afirmaciones de marketing.

Cifras principales: Puntuamos por campo con F1, precisión y recall (métricas estándar de la industria para OCR estructurado). En esta página presentamos F1 como un porcentaje de "precisión" para mantener la legibilidad. p50 / p95 son los tiempos de conversión de extremo a extremo en la mediana y en el percentil 95.

Precisión por tipo de documento

Cada tipo se puntúa sobre todos sus campos. "Precisión" es el F1 expresado en porcentaje — F1 combina cuán a menudo decimos algo correctamente (precision) y cuánto de lo realmente presente capturamos (recall). La velocidad es de extremo a extremo, incluida subida y procesamiento por IA.

Tipo de documento	Documentos	Precisión	Precision	Recall	Mediana (p50)	Caso lento (p95)
Facturas	600	99,5%	0.993	0.997	3.3 s	5.1 s
Imágenes de tablas	200	99,2%	0.992	0.992	2.6 s	7.0 s
Extractos de tarjeta	500	98,8%	0.989	0.987	6.4 s	8.8 s
Extractos bancarios	650	98,7%	0.989	0.985	10.2 s	17.2 s
Recibos	600	97,3%	0.959	0.988	2.3 s	3.1 s
Nóminas	450	94,6%	0.952	0.940	5.5 s	8.7 s

Estas cifras provienen de nuestro conjunto de pruebas interno en esta fecha — describen cómo se comportó el motor sobre esos fixtures, no un resultado garantizado para ningún documento concreto que subas. La precisión real varía según la calidad de la imagen, el diseño, el idioma y el formato del documento.

Documentos extraídos a la perfección

El F1 a nivel de campo refleja la corrección media, pero no con qué frecuencia un documento sale completamente correcto de extremo a extremo. Por eso también lo medimos. A continuación se muestra la proporción de fixtures en los que todos los campos evaluados coincidieron con la clave de respuestas verificada a mano: es decir, el documento volvió listo para usar, sin nada que corregir.

En total, sobre 3000 fixtures, el 94,8 % volvió con cada campo correcto. La mayoría de los envíos de nuestro conjunto de pruebas vuelven listos para usar — pero una minoría aún requiere una revisión rápida.

Tipo de documento	Fixtures	Totalmente correcto
Facturas	600	96,2%
Tablas en imagen	200	95,9%
Extractos de tarjeta de crédito	500	95,7%
Extractos bancarios	650	95,2%
Recibos	600	93,9%
Nóminas	450	92,1%

Siguen siendo cifras del conjunto de pruebas, no una garantía para ningún envío concreto: aplican las mismas advertencias de la tabla anterior.

Validación con conjunto reservado

Además del conjunto principal mantenemos un pequeño conjunto reservado que el modelo nunca ha visto durante el desarrollo. Los números entre paréntesis son la cantidad de documentos.

Tipo de documento	Conjunto principal	Conjunto reservado	Δ
Facturas	99,5% (n=600)	97,8% (n=150)	−0.017
Imágenes de tablas	99,2% (n=200)	96,7% (n=50)	−0.025
Extractos de tarjeta	98,8% (n=500)	99,9% (n=130)	+0.011
Extractos bancarios	98,7% (n=650)	99,8% (n=160)	+0.011
Recibos	97,3% (n=600)	98,6% (n=150)	+0.013
Nóminas	94,6% (n=450)	95,3% (n=110)	+0.007

Recibos, extractos bancarios, de tarjeta y nóminas puntúan mejor en el conjunto no visto — fuerte evidencia de que el modelo generaliza en lugar de memorizar. Facturas e imágenes de tablas bajan algo en el reservado, lo que indica honestamente que el set pequeño tiene casos límite más duros (y que aún tenemos margen en esos tipos).

Qué evaluamos

Cada documento se compara campo a campo con una clave de respuestas verificada a mano. Estos son los campos evaluados por tipo de documento.

Facturas (16 fields)

issue date, due date, currency, vendor info, customer info, line items, subtotal, tax, tax-inclusive flag, tax rows, line tax fields, total and withholdings.

Imágenes de tablas (5 fields)

header rows, header cell, row identification, row type and row cell.

Extractos de tarjeta (20 fields)

card network, holder, statement period, payment due date, minimum payment due, credit limit, available credit, summary purchases, summary payments, summary fees, summary interest, opening and closing balances, transactions, posted date, transaction type, transaction amount and currency.

Extractos bancarios (16 fields)

account holder, account currency, statement period, opening and closing balances, interest paid, fees charged, transactions, posted date, transaction type, transaction amount, running balance, credit total and debit total.

Recibos (11 fields)

date, currency, vendor, line items, subtotal, tax, tax row breakdown, tip, total and payment details.

Nóminas (40 fields)

employee, employer, country, currency, pay period, base pay rate and unit, annual salary, current net pay, summary YTD totals (gross, taxes, net), and per-row earnings, taxes, deductions and employer contributions (each with hours, rate, current amount and YTD).

Cómo medimos

Documentos reales — nunca los tuyos

Nuestro conjunto de 3000 muestras es una mezcla de documentos disponibles públicamente (conjuntos OCR abiertos y muestras públicas), datos que hemos licenciado y comprado, y documentos sintéticos que generamos nosotros mismos para forzar casos límite. Lo que nunca está ahí: tus archivos. Los documentos que subes a ScanToExcel se procesan en memoria y se eliminan en cuanto tu descarga está lista — nunca se guardan, nunca se usan para entrenar modelos y nunca se añaden a este benchmark.

Claves de respuesta revisadas a mano

Cada muestra tiene una verdad fundamental verificada manualmente. Cada campo de salida del modelo se compara campo por campo.

F1, precision y recall — a nivel de campo

Puntuamos cada campo como verdadero positivo, falso positivo o falso negativo. F1 (la media armónica de precision y recall) se reporta como precisión principal — estándar de la industria para OCR estructurado.

Conjunto de validación reservado

Mantenemos un pequeño conjunto que el modelo nunca ve durante el desarrollo, para detectar sobreajuste. Los números aparecen arriba.

Velocidad de extremo a extremo

p50 y p95 son tiempos de reloj desde la subida del archivo hasta que el archivo de salida está listo, incluyendo el procesamiento por IA.

Reevaluación continua

Cada cambio de modelo o prompt se vuelve a evaluar contra todo el conjunto antes de publicarse. Las cifras de esta página reflejan el modelo en producción al 2026-05-05.

Preguntas frecuentes

¿Usáis mis archivos para entrenar IA o ampliar este benchmark?

No. Los archivos que subes a ScanToExcel se procesan en memoria y se eliminan permanentemente en cuanto tu descarga está lista. Nunca los almacenamos, no los usamos para entrenar y no los añadimos al conjunto de evaluación detrás de estas cifras. Los 3000 documentos vienen de conjuntos de datos públicos y documentos propios — no de subidas de usuarios. Consulta nuestra Política de privacidad.

¿Qué precisión tiene ScanToExcel?

ScanToExcel alcanza un 98,0 % de precisión ponderada sobre 3000 documentos reales en seis tipos. Facturas 99,5 %, imágenes de tablas 99,2 %, extractos de tarjeta 98,8 %, recibos 97,3 %, extractos bancarios 98,7 % y nóminas 94,6 %.

¿Qué tipo de documento es el más preciso?

Las facturas, con 99,5 % F1 sobre 26 muestras reales. Imágenes de tablas (99,2 %) y extractos de tarjeta (98,8 %) muy cerca.

¿Qué tipo es el menos preciso?

Las nóminas, 94,6 % F1 — sobre todo porque tienen el esquema más grande (40 campos) y los empleadores usan layouts muy distintos. Cabeceras, totales y partidas siguen por encima del 92 %; los puntos débiles son el parseo de tasas y la clasificación SALARY vs HOURLY.

¿Cuán rápida es una conversión?

La mayoría de documentos se convierten en 2 – 7 segundos. Recibos e imágenes de tablas son los más rápidos (mediana 2,3 – 2,6 s); los extractos bancarios tardan más (mediana 10,2 s, p95 17,2 s) por ser los documentos más largos.

¿Qué es el F1?

F1 es la media armónica de precision y recall. Precision: "de lo que devolvimos, cuánto era correcto". Recall: "de lo que realmente había, cuánto detectamos". F1 captura ambos en un solo número — y es el estándar de la industria para OCR estructurado.

¿Probáis sobre documentos reales?

Sí — y para que quede claro, ninguno es una subida de usuario. El conjunto está formado principalmente por recibos, facturas, extractos y nóminas reales procedentes de conjuntos públicos y documentos propios o licenciados, más una parte menor de documentos sintéticos que generamos nosotros mismos para forzar casos límite: diseños inusuales, escaneos de baja calidad y totales complicados.

¿Las cifras de esta página son reales?

Sí. Vienen directas de la última ejecución de evaluación contra el conjunto de 3000. Modelo y prompts se reevalúan completamente antes de cada publicación.

Pruébalo con tus propios documentos

Las cifras son útiles, pero el único benchmark que importa son tus documentos. Sube un archivo — no necesitas registrarte para conversiones gratuitas — y compruébalo.

Iniciar conversión gratis