Desempenho e precisão | ScanToExcel — medido em documentos reais

Qual a precisão do ScanToExcel?

Medimos o ScanToExcel num conjunto de 3000 documentos reais — faturas, recibos, extratos bancários e de cartão, holerites e imagens de tabelas — comparando cada campo extraído com uma chave de resposta verificada manualmente. Os números abaixo são os resultados reais da última avaliação, não marketing.

Números principais: Pontuamos por campo com F1, precision e recall (métricas padrão da indústria para OCR estruturado). Nesta página apresentamos F1 como uma percentagem de "precisão" para legibilidade. p50 / p95 são tempos de conversão ponta-a-ponta, mediana e percentil 95.

Precisão por tipo de documento

Cada tipo é pontuado em todos os seus campos. "Precisão" é o F1 em percentagem — F1 combina a frequência com que respondemos corretamente (precision) e quanto do que estava realmente lá conseguimos capturar (recall). A velocidade é ponta-a-ponta, incluindo upload e processamento por IA.

Tipo de documento	Documentos	Precisão	Precision	Recall	Mediana (p50)	Caso lento (p95)
Faturas	600	99,5%	0.993	0.997	3.3 s	5.1 s
Imagens de tabelas	200	99,2%	0.992	0.992	2.6 s	7.0 s
Extratos de cartão	500	98,8%	0.989	0.987	6.4 s	8.8 s
Extratos bancários	650	98,7%	0.989	0.985	10.2 s	17.2 s
Recibos	600	97,3%	0.959	0.988	2.3 s	3.1 s
Holerites	450	94,6%	0.952	0.940	5.5 s	8.7 s

Estes valores vêm do nosso conjunto de testes interno nesta data — descrevem o desempenho do motor sobre esses fixtures e não constituem um resultado garantido para qualquer documento específico que carregues. A precisão real varia consoante a qualidade da imagem, o layout, o idioma e o formato do documento.

Documentos extraídos sem erros

O F1 ao nível do campo indica a correção média, mas não com que frequência um documento sai totalmente correto de ponta a ponta. Por isso também medimos isso. Abaixo está a proporção de fixtures em que cada campo avaliado coincidiu com a chave de respostas verificada à mão — ou seja, o documento voltou pronto a usar, sem nada para corrigir.

No conjunto dos 3000 fixtures, 94,8% voltaram com cada campo correto. A maioria dos envios do nosso conjunto de testes volta pronta a usar — mas uma minoria ainda precisa de uma revisão rápida.

Tipo de documento	Fixtures	Totalmente correto
Faturas	600	96,2%
Tabelas em imagem	200	95,9%
Extratos de cartão de crédito	500	95,7%
Extratos bancários	650	95,2%
Recibos	600	93,9%
Recibos de vencimento	450	92,1%

Continuam a ser números do conjunto de testes, não uma garantia para qualquer envio específico — aplicam-se as mesmas ressalvas da tabela acima.

Validação com conjunto reservado

Para além do conjunto principal, mantemos um pequeno conjunto reservado que o modelo nunca viu durante o desenvolvimento. Os números entre parêntesis são o número de documentos.

Tipo de documento	Conjunto principal	Conjunto reservado	Δ
Faturas	99,5% (n=600)	97,8% (n=150)	−0.017
Imagens de tabelas	99,2% (n=200)	96,7% (n=50)	−0.025
Extratos de cartão	98,8% (n=500)	99,9% (n=130)	+0.011
Extratos bancários	98,7% (n=650)	99,8% (n=160)	+0.011
Recibos	97,3% (n=600)	98,6% (n=150)	+0.013
Holerites	94,6% (n=450)	95,3% (n=110)	+0.007

Recibos, extratos bancários, de cartão e holerites pontuam até mais alto no conjunto não visto — forte indício de que o modelo generaliza em vez de memorizar. Faturas e imagens de tabelas descem um pouco no reservado; é sinal honesto de que esse pequeno conjunto tem casos limite mais difíceis (e que ainda há margem nesses tipos).

O que avaliamos

Cada documento é comparado campo a campo com um gabarito verificado à mão. Estes são os campos avaliados por tipo de documento.

Faturas (16 fields)

issue date, due date, currency, vendor info, customer info, line items, subtotal, tax, tax-inclusive flag, tax rows, line tax fields, total and withholdings.

Imagens de tabelas (5 fields)

header rows, header cell, row identification, row type and row cell.

Extratos de cartão (20 fields)

card network, holder, statement period, payment due date, minimum payment due, credit limit, available credit, summary purchases, summary payments, summary fees, summary interest, opening and closing balances, transactions, posted date, transaction type, transaction amount and currency.

Extratos bancários (16 fields)

account holder, account currency, statement period, opening and closing balances, interest paid, fees charged, transactions, posted date, transaction type, transaction amount, running balance, credit total and debit total.

Recibos (11 fields)

date, currency, vendor, line items, subtotal, tax, tax row breakdown, tip, total and payment details.

Holerites (40 fields)

employee, employer, country, currency, pay period, base pay rate and unit, annual salary, current net pay, summary YTD totals (gross, taxes, net), and per-row earnings, taxes, deductions and employer contributions (each with hours, rate, current amount and YTD).

Como medimos

Documentos reais — nunca os seus

Nosso conjunto de 3000 amostras é uma mistura de documentos publicamente disponíveis (datasets OCR abertos e amostras públicas), dados que licenciamos e compramos, e documentos sintéticos que geramos nós mesmos para estressar casos limite. O que nunca está lá: seus arquivos. Os documentos que você envia ao ScanToExcel são processados em memória e excluídos no instante em que seu download fica pronto — nunca salvos, nunca usados para treinar modelos, nunca adicionados a este benchmark.

Chaves de resposta verificadas à mão

Cada amostra tem uma verdade fundamental verificada manualmente. Cada campo de saída é comparado campo a campo.

F1, precision, recall — ao nível do campo

Pontuamos cada campo como verdadeiro positivo, falso positivo ou falso negativo. F1 (média harmónica de precision e recall) é a pontuação principal — padrão da indústria para OCR estruturado.

Conjunto de validação reservado

Mantemos um pequeno conjunto fora do desenvolvimento para detetar overfitting. Os números são publicados acima.

Velocidade ponta-a-ponta

p50 e p95 são tempos de relógio desde o upload até ao ficheiro de saída pronto, incluindo o processamento por IA.

Reavaliação contínua

Cada alteração de modelo ou prompt é reavaliada no conjunto completo antes de ser publicada. Os números refletem o modelo em produção em 2026-05-05.

Perguntas frequentes

Vocês usam meus uploads para treinar IA ou ampliar este benchmark?

Não. Os arquivos que você envia ao ScanToExcel são processados em memória e excluídos permanentemente no instante em que seu download fica pronto. Nunca os armazenamos, não os usamos para treinamento e não os adicionamos ao conjunto de avaliação por trás destes números. Os 3000 documentos vêm de datasets públicos e dos nossos próprios documentos — nunca de uploads de usuários. Veja nossa Política de Privacidade.

Qual a precisão do ScanToExcel?

O ScanToExcel atinge 98,0 % de precisão ponderada em 3000 documentos reais distribuídos por seis tipos. Faturas 99,5 %, imagens de tabelas 99,2 %, extratos de cartão 98,8 %, recibos 97,3 %, extratos bancários 98,7 % e holerites 94,6 %.

Qual o tipo de documento mais preciso?

Faturas, com 99,5 % F1 em 600 documentos reais. Imagens de tabelas (99,2 %) e extratos de cartão (98,8 %) muito perto.

Qual o tipo menos preciso?

Holerites, 94,6 % F1 — sobretudo porque têm o maior esquema (40 campos) e os layouts dos empregadores variam muito. Cabeçalhos, totais e linhas continuam acima de 92 %; os pontos fracos são o parsing de taxas e a classificação SALARY vs HOURLY.

Que velocidade tem uma conversão?

A maioria dos documentos converte em 2 – 7 segundos. Recibos e imagens de tabelas são os mais rápidos (mediana 2,3 – 2,6 s); extratos bancários demoram mais (mediana 10,2 s, p95 17,2 s) por serem os documentos mais longos.

O que é F1?

F1 é a média harmónica de precision e recall. Precision: "do que devolvemos, quanto estava certo". Recall: "do que estava realmente lá, quanto apanhámos". F1 junta os dois num só número — padrão da indústria para OCR estruturado.

Testam em documentos reais?

Sim — e para deixar claro, nenhum é upload de utilizador. O conjunto é composto sobretudo por recibos, faturas, extratos e holerites reais vindos de datasets públicos e documentos nossos ou licenciados, mais uma parte menor de documentos sintéticos que geramos nós mesmos para forçar casos-limite — layouts pouco habituais, digitalizações de má qualidade e totais complicados.

Os números desta página são reais?

Sim. Vêm diretamente da última avaliação contra o nosso conjunto de 3000 documentos. Modelo e prompts são totalmente reavaliados antes de cada publicação.

Experimente nos seus próprios documentos

Os números ajudam, mas o único benchmark que conta são os seus documentos. Carregue um ficheiro — sem registo para conversões gratuitas — e veja por si.

Iniciar uma conversão grátis