Porovnání softwaru pro optické rozpoznávání znaků - Comparison of optical character recognition software - Wikipedia
Tento srovnání optické rozpoznávání znaků software zahrnuje:
- OCR motory, které provádějí skutečnou identifikaci znaků
- Software pro analýzu rozložení, který rozděluje naskenované dokumenty do zón vhodných pro OCR
- Grafická rozhraní k jednomu nebo více modulům OCR
- Soupravy pro vývoj softwaru které se používají k přidání funkcí OCR k dalšímu softwaru (např. aplikace pro zpracování formulářů, systémy pro správu dokumentů, e-objev systémy, řešení pro správu záznamů)
název | Rok založení | Nejnovější stabilní verze | Rok vydání | Licence | Online | Okna | Mac OS X | Linux | BSD | Programovací jazyk | SDK ? | Jazyky | Písma | Výstupní formáty | Poznámky |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Disk Google OCR nebo Google Cloud Vision | 2015 | Proprietární | Ano | Prohlížeč | Prohlížeč | Prohlížeč | Neznámý | Neznámý | Ano | 200+ | Všechna písma | text | Příspěvek na blogu Google [1] [2] | ||
Tesseract | 1985 | 4.1.1 | 2019 | Apache | Ne | Ano | Ano | Ano | Ano | C ++, C | Ano | 100+[3] | Jakékoli tištěné písmo | Text, ALT, hOCR,[4] PDF, jiné s různými uživatelskými rozhraními[5] nebo API | Vytvořil Hewlett Packard; v rámci dalšího vývoje společností Google[6] |
ABBYY FineReader | 1989 | 15 | 2019 | Proprietární | Ano | Ano | Ano | Ano | Ano | C / C ++ | Ano | 192[7] | Všechna písma | DOC, DOCX, XLS, XLSX, PPTX, RTF, PDF, HTML, CSV, TXT, ODT, DjVu, EPUB, FB2[8] | ABBYY také dodává SDK pro vestavěná a mobilní zařízení. Vydání Professional, Corporate a Site License pro Windows, Express Edition pro Mac.[9] |
E-aksharayan | 2010 | Ano | Ne | Ano | Ne | 14 | RTF, TXT, BRL | ||||||||
Asprise OCR SDK | 1998 | 15 | 2015 | Proprietární | Ano | Ano | Ano | Ano | Ano | Java, C #, VB.NET, C / C ++ / Delphi | Ano | 20+[10] | ? | Prostý text, prohledávatelné PDF, XML[11] | Java, C #, VB.NET, C / C ++ / Delphi SDK pro rozpoznávání OCR a čárových kódů na Windows, Linux, Mac OS X a Unix.[12] |
Software AnyDoc | 1989 | ? | ? | Proprietární | Ne | Ano | Ne | Ne | Ne | VBScript | ? | ? | ? | Pracuje se strukturovanými, polostrukturovanými a nestrukturovanými dokumenty. | |
CuneiForm | 1996 | 1.1 | 2011-04-19 | BSD varianta | Ne | Ano | Ano | Ano | Ano | C / C ++ | Ano | 28 | Jakékoli tištěné písmo | HTML, hOCR, nativní, RTF, TeX, TXT[13] | Systém podnikové třídy dokáže ukládat formátování textu a rozpoznává komplikované tabulky jakékoli struktury |
Dynamsoft OCR SDK | 2003 | 8.2 | 2012 | Proprietární | Ano | Ano | Ne | Ne | Ne | C / C ++ | Ano | 40+[14] | ? | PDF, TXT | |
OmniPage | Sedmdesátá léta | 19.2 | 2015 | Proprietární | Ano | Ano | Ano | Ano | Ne | C / C ++, C #[15] | Ano | 125[16] | Strojová a ručně psaná písma | DOC / DOCX XLS / XLSX PPTX RTF PDF PDF / A Prohledávatelné PDF HTML Text XML ePUB MP3 | Produkt z Komunikace Nuance |
Microsoft Office OneNote 2007 | 2011 | ? | 2007 | Proprietární | Ne | Ano | Ne | Ne | Ne | ? | ? | ? | ? | ||
GOCR | 2000 | 0.52[17] | 2018-10-15 | GPL | Ano[18] | Ano | Ano | Ano | Ano | C | ? | 20+ | ? | ||
Ocrad | ? | 0.26[19] | 2017-03-31 | GPL | Ano | Ne | Ano | Ano | Ano | C ++ | Ano | latinka | ? | Příkazový řádek | |
SmartScore | 1991 | 10.5.8 | 2015-07 | Proprietární | Ne | Ano | Ano | Ne | Ne | ? | ? | ? | ? | Pro hudební partitury | |
Zobrazování dokumentů Microsoft Office | ? | Office 2007 | 2007 | Proprietární | Ne | Ano | Ne | Ne | Ne | ? | ? | ? | ? | Používá OmniPage[Citace je zapotřebí ] | |
Puma.NET | ? | ? | 2009-10-29 | BSD | Ne | Ano | Ne | Ne | Ne | C# | Ano | 28 | Jakékoli tištěné písmo | .SÍŤ OCR SDK založený na rozpoznávacím enginu CuneiForm společnosti Cognitive Technologies. Zabalí server Puma COM a poskytuje zjednodušené API pro .NET aplikace | |
ReadSoft | ? | ? | ? | Proprietární | Ne | Ano | Ne | Ne | Ne | ? | ? | ? | ? | Skenujte, zachycujte a klasifikujte obchodní dokumenty, jako jsou faktury, formuláře a nákupní objednávky integrované do obchodních procesů. | |
Scantron | ? | ? | ? | Proprietární | Ne | Ano | Ne | Ne | Ne | ? | ? | ? | ? | Pro práci s lokalizovanými rozhraními je nutná odpovídající jazyková podpora. | |
OCR Podavač | 2009-03 | 0.8.1 | 2014-12-22 | GPL | Ne | Ne | Ne | Ano | Ne | Krajta | ? | ? | ? | Má plné uživatelské rozhraní a má nástroj příkazového řádku pro automatické operace. Má svůj vlastní segmentační algoritmus, ale používá celosystémové OCR enginy jako Tesseract nebo Ocrad | |
OCRopus | 2007 | 1.3.3 | 2017-12-16 | Apache | Ne | Ne | Ano | Ano | Ano | Krajta | ? | Všechny jazyky používají Latinské písmo (lze procvičovat i jiné jazyky) | Normální latinské písmo a Fraktur (jiné skripty lze procvičit) | TXT, hOCR,[20] PDF[21] | Zásuvný rámec v aktivním vývoji, používaný pro Knihy Google |
název | Rok založení | Nejnovější stabilní verze | Rok vydání | Licence | Online | Okna | Mac OS X | Linux | BSD | Programovací jazyk | SDK? | Jazyky | Písma | Výstupní formáty | Poznámky |
Hodnocení
Analýza přesnosti a spolehlivosti balíků OCR Google dokumenty OCR, Tesseract, ABBYY FineReader a Transym s využitím datové sady obsahující 1227 obrázků z 15 různých kategorií dospěly k závěru, že si Google Docs OCR a ABBYY vedou lépe než ostatní.[22]
Reference
- ^ Dmitriy Genzel; Ashok Popat (6. května 2015). „Paper to Digital in 200+ languages“.
- ^ Ashok Popat (4. září 2015). „IEEE SPS: Optické rozpoznávání znaků pro většinu světových jazyků“.
- ^ Na základě počtu souborů jazykových školení pro verzi 3.04. Dostupné v stránku ke stažení.
- ^ Použití vysvětleno v Tesseractu Soubor Readme a FAQ
- ^ Například ODF s OCR Podavač
- ^ „GitHub - tesseract-ocr / tesseract: Tesseract Open Source OCR Engine (hlavní úložiště)“. Citováno 2018-11-05.
- ^ „ABBYY FineReader 14: Technické specifikace“. Finereader.abbyy.com. Citováno 2017-02-23.
- ^ „ABBYY FineReader 11: Technické specifikace“. Finereader.abbyy.com. Citováno 2013-09-12.
- ^ „Nejlepší OCR software“. Ocrworld.com. 2010-03-30. Archivovány od originál dne 2017-02-23. Citováno 2013-09-12.
- ^ „Funkce Asprise OCR SDK“. asprise.com. Citováno 2014-06-21.
- ^ „Asprise Java OCR Library Features“. asprise.com. Citováno 2014-06-21.
- ^ „Asprise Java, C # / VB.NET OCR API“. asprise.com. 19. 11. 2015. Citováno 2015-11-19.
- ^ Debian manuální stránka pro Cuneiform pro Linux verze 1.1.0
- ^ "Stažení jazykových balíčků OCR SDK". Dynamsoft.com. Citováno 2013-09-12.
- ^ „OmniPage CSDK - OCR Document Capture Toolkit | Document Imaging & OCR“. Odstín. Archivovány od originál dne 2010-08-24. Citováno 2013-09-12.
- ^ „Standardní převod dokumentu OmniPage“. Odstín. Archivovány od originál dne 13.03.2014. Citováno 2014-02-25.
- ^ „Domovská stránka GOCR“. wasd.urz.uni-magdeburg.de. Citováno 2018-10-17.
- ^ „GOCR“. Jocr.sourceforge.net. Citováno 2013-09-12.
- ^ Diaz, Antonio (2015-04-16). „Vydán GNU Ocrad 0,26“ (Poštovní seznam). info-gnu.
- ^ OCRopus zahrnuje nástroj ocropus-hocr, který produkuje hOCR z výsledků rozpoznávání.
- ^ V kombinaci s hocr nástroji
- ^ Assefi, Mehdi (01.12.2016). „OCR jako služba: experimentální hodnocení OCR Google Docs, Tesseract, ABBYY FineReader a Transym“. Výzkumná brána. Citováno 2019-01-31.