OCR (Optical Character Recognition) bestaat al tientallen jaren. Maar in de afgelopen jaren hebben multimodale LLM's compleet veranderd wat er mogelijk is. Dit is waarom dat belangrijk is.
OCR vóór multimodale LLM's
Traditionele OCR-tools zoals Tesseract, ABBYY en Google Vision API werken door tekenpatronen te herkennen. Ze scannen een afbeelding, identificeren vormen die op letters lijken en produceren tekst. Deze aanpak is al tientallen jaren verfijnd en werkt goed voor schone, goed gestructureerde documenten.
Hoe traditionele OCR werkt
- •Beeldvoorbewerking (ruisonderdrukking, binarisatie, rechtzetten)
- •Tekstdetectie om regio's met tekens te vinden
- •Tekensegmentatie om individuele letters te isoleren
- •Patroonmatching met bekende tekenvvormen
- •Nabewerking met woordenboeken om fouten te corrigeren
De beperkingen
- •Moeite met handschrift, ongebruikelijke lettertypen of slechte beeldkwaliteit
- •Geen begrip van documentstructuur of context
- •Kan geen onderscheid maken tussen een totaal en een subtotaal
- •Tabellen komen er vaak uit als door elkaar gegooide tekst
- •Vereist uitgebreide voorbewerking voor elk documenttype
OCR na multimodale LLM's
Multimodale LLM's zoals GPT-4 Vision en Claude zien niet alleen tekens - ze begrijpen documenten. Ze weten dat een getal onderaan een factuur waarschijnlijk het totaal is. Ze herkennen dat een verkreukelde bon van een Thais restaurant regelitems bevat, zelfs als de tekst vervaagd of gedeeltelijk verborgen is.
Traditionele OCR vs LLM-aangedreven OCR
| Aspect | Traditionele OCR | LLM-aangedreven OCR |
|---|---|---|
| Tekenherkenning | Patroonmatching | Contextueel begrip |
| Documentstructuur | Geen (ruwe tekstoutput) | Begrijpt tabellen, koppen, secties |
| Handschrift | Slecht | Goed |
| Beschadigde documenten | Faalt vaak | Kan ontbrekende informatie afleiden |
| Data-extractie | Vereist aparte parsing | Ingebouwde veldidentificatie |
| Meertalig | Heeft taalpakketten nodig | Native meertalige ondersteuning |
| Verwerkingskosten | Zeer goedkoop | Hoger per document |
| Setupcomplexiteit | Aanzienlijk | Minimaal |
“Het belangrijkste verschil is niet alleen nauwkeurigheid - het is begrip. LLM's kunnen "Wat is het totaal op deze bon?" beantwoorden zonder dat je regels hoeft te schrijven voor waar het totaal zou kunnen staan.”
Waarvoor kan OCR nog meer worden gebruikt?
Naast financiële documenten drijft OCR talloze toepassingen in verschillende sectoren aan. De technologie die je bonnetjes leest, is dezelfde technologie die transformeert hoe we omgaan met de fysieke wereld.
Gezondheidszorg
- →Digitaliseren van patiëntendossiers
- →Verwerken van recepten
- →Automatisering van medische formulieren
Juridisch
- →Contractanalyse
- →Discovery documentverwerking
- →Digitalisering van rechtbankdossiers
Logistiek
- →Scannen van verzendlabels
- →Magazijninventaris
- →Douanedocumentatie
Toegankelijkheid
- →Schermlezers voor blinden
- →Realtime bordvertaling
- →Tekst-naar-spraak van afbeeldingen
Archivering
- →Digitaliseren van historische documenten
- →Bibliotheekcatalogussystemen
- →Museumcollecties
Automotive
- →Kentekenplaatherkenning
- →Verkeersbordherkenning
- →Parkeersystemen
Waarom dit belangrijk is
Dit is wat mij enthousiast maakt over document-OCR: het automatiseert het werk dat niemand wil doen. Het zware werk. De zielvernietigende gegevensinvoer die je je levenskeuzes doet betwijfelen.
Win je tijd terug
Die stapel bonnetjes van je zakenreis? De stapel facturen die in je boekhoudsoftware moeten? De bankafschriften die je aan het afstemmen bent? Elk vertegenwoordigt minuten handmatig typen. Minuten die optellen tot uren. Uren die je aan letterlijk iets anders zou kunnen besteden.
Leg uitgaven overal vast
Je bent in een restaurant in Tokio. De bon is in het Japans. Je maakt een foto en het staat al in je onkostenspreadsheet voordat je je koffie op hebt. Geen verfrommelde papiertjes meer in je portemonnee proppen, hopend dat je eraan denkt om het "later" af te handelen.
Verminder fouten
Mensen maken fouten bij het typen van cijfers. We verwisselen cijfers. We missen decimaalpunten. We worden moe. AI wordt niet moe om 23:00 op een vrijdag wanneer je de boeken probeert af te sluiten.
Focus op wat belangrijk is
Als je geen uren aan gegevensinvoer besteedt, kun je je gegevens daadwerkelijk analyseren. Trends opmerken. Beslissingen nemen. Je bedrijf runnen in plaats van documenten erin te voeren.
De beste tools zijn degene die verdwijnen. Je zou niet na moeten denken over hoe gegevens van een stuk papier in je spreadsheet komen. Je zou gewoon een foto moeten kunnen maken en doorgaan met je dag. Dat is wat moderne OCR mogelijk maakt.
—Julius