OCR (Optical Character Recognition) hefur verið til í áratugi. En á undanförnum árum hafa fjölþætt LLM algjörlega breytt því sem er mögulegt. Hér er hvers vegna það skiptir máli.
OCR fyrir fjölþætt LLM
Hefðbundin OCR verkfæri eins og Tesseract, ABBYY og Google Vision API virka með því að þekkja stafamynstur. Þau skanna mynd, auðkenna form sem líta út eins og stafir og skila texta. Þessi aðferð hefur verið fínpússuð í áratugi og virkar vel fyrir hrein, vel skipulögð skjöl.
Hvernig hefðbundin OCR virkar
- •Forvinnsla myndar (hávaðaminnkun, tvíhliðun, beinun)
- •Textauppgötvun til að finna svæði sem innihalda stafi
- •Stafaskipting til að einangra einstaka stafi
- •Mynsturasamsvörun við þekkt stafaform
- •Eftirvinnsla með orðabókum til að leiðrétta villur
Takmarkanir
- •Á í erfiðleikum með handskrift, óvenjuleg letur eða léleg myndgæði
- •Enginn skilningur á byggingu skjala eða samhengi
- •Getur ekki greint á milli samtölu og millisamtölu
- •Töflur koma oft út sem ruglingslegur texti
- •Krefst umfangsmikillar forvinnslu fyrir hverja tegund skjals
OCR eftir fjölþætt LLM
Fjölþætt LLM eins og GPT-4 Vision og Claude sjá ekki bara stafi - þau skilja skjöl. Þau vita að tala neðst á reikningi er líklega samtala. Þau þekkja að krumpluð kvittun frá taílenskum veitingastað inniheldur línuatriði, jafnvel þó textinn sé daufur eða að hluta til falinn.
Hefðbundin OCR gegn LLM-knúinni OCR
| Þáttur | Hefðbundin OCR | LLM-knúin OCR |
|---|---|---|
| Stafaþekking | Mynsturasamsvörun | Samhengisskilningur |
| Skjalabygging | Engin (hrátt textaúttak) | Skilur töflur, hausa, hluta |
| Handskrift | Léleg | Góð |
| Skemmd skjöl | Mistekst oft | Getur ályktað upplýsingar sem vantar |
| Gagnútdráttur | Krefst aðskilinnar greiningar | Innbyggð svæðisauðkenning |
| Fjöltyngi | Þarf tungumálapakka | Innfæddur fjöltyngisstuðningur |
| Vinnslukostnaður | Mjög ódýr | Hærri á skjal |
| Uppsetningarflækjustig | Verulegt | Lágmarks |
“Lykilmunurinn er ekki bara nákvæmni - það er skilningur. LLM geta svarað "Hver er samtalan á þessari kvittun?" án þess að þú þurfir að skrifa reglur um hvar samtalan gæti verið.”
Hvað annað er hægt að nota OCR fyrir?
Fyrir utan fjármálaskjöl knýr OCR óteljandi forrit yfir atvinnugreinar. Tæknin sem les kvittanirnar þínar er sama tæknin sem er að umbreyta því hvernig við höfum samskipti við líkamlega heiminn.
Heilbrigðisþjónusta
- →Stafræning sjúklingaskráa
- →Vinnsla lyfseðla
- →Sjálfvirkni læknisfræðilegra eyðublaða
Lögfræði
- →Samningsgreining
- →Vinnsla uppgötvunarskjala
- →Stafræning dómsmálaskráa
Flutningar
- →Skönnun sendingarmiða
- →Vöruhúsabirgðir
- →Tollskjöl
Aðgengi
- →Skjálesarar fyrir blinda
- →Rauntíma skiltatúlkun
- →Texti-í-tal úr myndum
Safnvarsla
- →Stafræning sögulegra skjala
- →Bókasafnsskráningarkerfi
- →Safnasöfn
Bílar
- →Þekking á skráningarnúmerum
- →Lestur vegamerkja
- →Bílastæðakerfi
Hvers vegna þetta skiptir máli
Hér er það sem gerir mig spennt fyrir skjala OCR: það sjálfvirkjar það sem enginn vill gera. Þungavinnuna. Andþrjótandi gagnaskráninguna sem fær þig til að efast um lífið.
Endurheimtu tímann þinn
Sá stafli af kvittunum frá viðskiptaferðinni þinni? Hrúgurinn af reikningum sem þurfa að fara inn í bókhaldshugbúnaðinn þinn? Bankayfirlitum sem þú ert að samræma? Hver og einn táknar mínútur af handvirkri innslátt. Mínútur sem safnast upp í klukkustundir. Klukkustundir sem þú gætir eytt í bókstaflega hvað annað sem er.
Fangaðu kostnað hvar sem er
Þú ert á veitingastað í Tókýó. Kvittunin er á japönsku. Þú tekur mynd, og hún er þegar í kostnaðartöflureikninum þínum áður en þú hefur klárað kaffið þitt. Engin þörf á að troða hrukku pappír í veskið þitt og vona að þú munir gera við það "síðar".
Minnkaðu villur
Manneskjur gera mistök þegar þær slá inn tölur. Við umskiptum tölustöfum. Við missum af tugabrotspunktum. Við þreytumst. Gervigreind þreytist ekki klukkan 23 á föstudag þegar þú ert að reyna að loka bókunum.
Einbeittu þér að því sem skiptir máli
Þegar þú eyðir ekki klukkustundum í gagnaskráningu geturðu í raun greint gögnin þín. Greint þróun. Tekið ákvarðanir. Rekið fyrirtækið þitt í stað þess að fæða skjöl inn í það.
Bestu verkfærin eru þau sem hverfa. Þú ættir ekki að þurfa að hugsa um hvernig gögn komast af blaði inn í töflureiknið þitt. Þú ættir bara að geta tekið mynd og haldið áfram daginn. Það er það sem nútíma OCR gerir mögulegt.
—Julius