Qual a precisão do ScanToExcel?
Medimos o ScanToExcel num conjunto de 3000 documentos reais — faturas, recibos, extratos bancários e de cartão, holerites e imagens de tabelas — comparando cada campo extraído com uma chave de resposta verificada manualmente. Os números abaixo são os resultados reais da última avaliação, não marketing.
Precisão por tipo de documento
Cada tipo é pontuado em todos os seus campos. "Precisão" é o F1 em percentagem — F1 combina a frequência com que respondemos corretamente (precision) e quanto do que estava realmente lá conseguimos capturar (recall). A velocidade é ponta-a-ponta, incluindo upload e processamento por IA.
| Tipo de documento | Documentos | Precisão |
|---|---|---|
| Faturas | 600 | 99,5% |
| Imagens de tabelas | 200 | 99,2% |
| Extratos de cartão | 500 | 98,8% |
| Extratos bancários | 650 | 98,7% |
| Recibos | 600 | 97,3% |
| Holerites | 450 | 94,6% |
Estes valores vêm do nosso conjunto de testes interno nesta data — descrevem o desempenho do motor sobre esses fixtures e não constituem um resultado garantido para qualquer documento específico que carregues. A precisão real varia consoante a qualidade da imagem, o layout, o idioma e o formato do documento.
Documentos extraídos sem erros
O F1 ao nível do campo indica a correção média, mas não com que frequência um documento sai totalmente correto de ponta a ponta. Por isso também medimos isso. Abaixo está a proporção de fixtures em que cada campo avaliado coincidiu com a chave de respostas verificada à mão — ou seja, o documento voltou pronto a usar, sem nada para corrigir.
| Tipo de documento | Fixtures | Totalmente correto |
|---|---|---|
| Faturas | 600 | 96,2% |
| Tabelas em imagem | 200 | 95,9% |
| Extratos de cartão de crédito | 500 | 95,7% |
| Extratos bancários | 650 | 95,2% |
| Recibos | 600 | 93,9% |
| Recibos de vencimento | 450 | 92,1% |
Continuam a ser números do conjunto de testes, não uma garantia para qualquer envio específico — aplicam-se as mesmas ressalvas da tabela acima.
Validação com conjunto reservado
Para além do conjunto principal, mantemos um pequeno conjunto reservado que o modelo nunca viu durante o desenvolvimento. Os números entre parêntesis são o número de documentos.
| Tipo de documento | Conjunto principal | Conjunto reservado | Δ |
|---|---|---|---|
| Faturas | 99,5% (n=600) | 97,8% (n=150) | −0.017 |
| Imagens de tabelas | 99,2% (n=200) | 96,7% (n=50) | −0.025 |
| Extratos de cartão | 98,8% (n=500) | 99,9% (n=130) | +0.011 |
| Extratos bancários | 98,7% (n=650) | 99,8% (n=160) | +0.011 |
| Recibos | 97,3% (n=600) | 98,6% (n=150) | +0.013 |
| Holerites | 94,6% (n=450) | 95,3% (n=110) | +0.007 |
Recibos, extratos bancários, de cartão e holerites pontuam até mais alto no conjunto não visto — forte indício de que o modelo generaliza em vez de memorizar. Faturas e imagens de tabelas descem um pouco no reservado; é sinal honesto de que esse pequeno conjunto tem casos limite mais difíceis (e que ainda há margem nesses tipos).
O que avaliamos
Cada documento é comparado campo a campo com um gabarito verificado à mão. Estes são os campos avaliados por tipo de documento.
Faturas (16 fields)
issue date, due date, currency, vendor info, customer info, line items, subtotal, tax, tax-inclusive flag, tax rows, line tax fields, total and withholdings.
Imagens de tabelas (5 fields)
header rows, header cell, row identification, row type and row cell.
Extratos de cartão (20 fields)
card network, holder, statement period, payment due date, minimum payment due, credit limit, available credit, summary purchases, summary payments, summary fees, summary interest, opening and closing balances, transactions, posted date, transaction type, transaction amount and currency.
Extratos bancários (16 fields)
account holder, account currency, statement period, opening and closing balances, interest paid, fees charged, transactions, posted date, transaction type, transaction amount, running balance, credit total and debit total.
Recibos (11 fields)
date, currency, vendor, line items, subtotal, tax, tax row breakdown, tip, total and payment details.
Holerites (40 fields)
employee, employer, country, currency, pay period, base pay rate and unit, annual salary, current net pay, summary YTD totals (gross, taxes, net), and per-row earnings, taxes, deductions and employer contributions (each with hours, rate, current amount and YTD).
Como medimos
Documentos reais — nunca os seus
Nosso conjunto de 3000 amostras é uma mistura de documentos publicamente disponíveis (datasets OCR abertos e amostras públicas), dados que licenciamos e compramos, e documentos sintéticos que geramos nós mesmos para estressar casos limite. O que nunca está lá: seus arquivos. Os documentos que você envia ao ScanToExcel são processados em memória e excluídos no instante em que seu download fica pronto — nunca salvos, nunca usados para treinar modelos, nunca adicionados a este benchmark.
Chaves de resposta verificadas à mão
Cada amostra tem uma verdade fundamental verificada manualmente. Cada campo de saída é comparado campo a campo.
F1, precision, recall — ao nível do campo
Pontuamos cada campo como verdadeiro positivo, falso positivo ou falso negativo. F1 (média harmónica de precision e recall) é a pontuação principal — padrão da indústria para OCR estruturado.
Conjunto de validação reservado
Mantemos um pequeno conjunto fora do desenvolvimento para detetar overfitting. Os números são publicados acima.
Velocidade ponta-a-ponta
p50 e p95 são tempos de relógio desde o upload até ao ficheiro de saída pronto, incluindo o processamento por IA.
Reavaliação contínua
Cada alteração de modelo ou prompt é reavaliada no conjunto completo antes de ser publicada. Os números refletem o modelo em produção em 2026-05-05.
Perguntas frequentes
Vocês usam meus uploads para treinar IA ou ampliar este benchmark?
Não. Os arquivos que você envia ao ScanToExcel são processados em memória e excluídos permanentemente no instante em que seu download fica pronto. Nunca os armazenamos, não os usamos para treinamento e não os adicionamos ao conjunto de avaliação por trás destes números. Os 3000 documentos vêm de datasets públicos e dos nossos próprios documentos — nunca de uploads de usuários. Veja nossa Política de Privacidade.
Qual a precisão do ScanToExcel?
O ScanToExcel atinge 98,0 % de precisão ponderada em 3000 documentos reais distribuídos por seis tipos. Faturas 99,5 %, imagens de tabelas 99,2 %, extratos de cartão 98,8 %, recibos 97,3 %, extratos bancários 98,7 % e holerites 94,6 %.
Qual o tipo de documento mais preciso?
Faturas, com 99,5 % F1 em 600 documentos reais. Imagens de tabelas (99,2 %) e extratos de cartão (98,8 %) muito perto.
Qual o tipo menos preciso?
Holerites, 94,6 % F1 — sobretudo porque têm o maior esquema (40 campos) e os layouts dos empregadores variam muito. Cabeçalhos, totais e linhas continuam acima de 92 %; os pontos fracos são o parsing de taxas e a classificação SALARY vs HOURLY.
Que velocidade tem uma conversão?
A maioria dos documentos converte em 2 – 7 segundos. Recibos e imagens de tabelas são os mais rápidos (mediana 2,3 – 2,6 s); extratos bancários demoram mais (mediana 10,2 s, p95 17,2 s) por serem os documentos mais longos.
O que é F1?
F1 é a média harmónica de precision e recall. Precision: "do que devolvemos, quanto estava certo". Recall: "do que estava realmente lá, quanto apanhámos". F1 junta os dois num só número — padrão da indústria para OCR estruturado.
Testam em documentos reais?
Sim — e para deixar claro, nenhum é upload de utilizador. O conjunto é composto sobretudo por recibos, faturas, extratos e holerites reais vindos de datasets públicos e documentos nossos ou licenciados, mais uma parte menor de documentos sintéticos que geramos nós mesmos para forçar casos-limite — layouts pouco habituais, digitalizações de má qualidade e totais complicados.
Os números desta página são reais?
Sim. Vêm diretamente da última avaliação contra o nosso conjunto de 3000 documentos. Modelo e prompts são totalmente reavaliados antes de cada publicação.
Experimente nos seus próprios documentos
Os números ajudam, mas o único benchmark que conta são os seus documentos. Carregue um ficheiro — sem registo para conversões gratuitas — e veja por si.
Iniciar uma conversão grátis