HOCR - HOCR
![]() | tento článek potřebuje další citace pro ověření.Květen 2010) (Zjistěte, jak a kdy odstranit tuto zprávu šablony) ( |
hOCR je otevřený standard reprezentace dat pro formátovaný text získaný z optické rozpoznávání znaků (OCR). Definice kóduje text, styl, informace o rozložení, metriky spolehlivosti rozpoznávání a další informace pomocí Rozšiřitelný značkovací jazyk (XML) ve formě Hyper Text Markup Language (HTML) nebo XHTML.[1]
Software
Následující software OCR může odeslat výsledek rozpoznávání jako soubor hOCR:
Příklad
Následující příklad je výtažkem ze souboru hOCR:
...<p třída='ocr_par' jazyk='deu' titul=„bbox930“> <rozpětí třída='ocr_line' titul=„bbox 348 797 1482 838; výchozí hodnota -0,009 -6“> <rozpětí třída='ocrx_word' titul='bbox 348 805 402 832; x_wconf 93 '>Zemřít</rozpětí> <rozpětí třída='ocrx_word' titul='bbox 421 804 697 832; x_wconf 90 '>Darlehenssumme</rozpětí> <rozpětí třída='ocrx_word' titul='bbox 717 803 755 831; x_wconf 96 '>ist</rozpětí> <rozpětí třída='ocrx_word' titul='bbox 773 803 802 831; x_wconf 96 '>v</rozpětí> <rozpětí třída='ocrx_word' titul='bbox 821 803 917 830; x_wconf 96 '>ihrem</rozpětí> <rozpětí třída='ocrx_word' titul='bbox 935 799 1180 838; x_wconf 95 '>ursprünglichen</rozpětí> <rozpětí třída='ocrx_word' titul='bbox 1199 797 1343 832; x_wconf 95 '>Umfange</rozpětí> <rozpětí třída='ocrx_word' titul='bbox 1362 805 1399 823; x_wconf 95 '>zu</rozpětí> <rozpětí třída='ocrx_word' titul='bbox 1417 x_wconf 96'>ver-</rozpětí> </rozpětí> ...
Rozpoznaný text je uložen v normálních textových uzlech souboru HTML. Distribuce do samostatných řádků a slov je zde dána okolím rozpětí značky. Kromě toho se používají obvyklé entity HTML, například p značka odstavce. Další informace jsou uvedeny ve vlastnostech, jako jsou:
- různé prvky rozvržení, například „ocr_par“, „ocr_line“, „ocrx_word“
- geometrické informace pro každý prvek s ohraničujícím rámečkem "bbox"
- informace o jazyce „lang“
- některé hodnoty spolehlivosti "x_wconf"
Viz také
- ALTO (XML) - jiný formát reprezentace dat OCR
Reference
- ^ Breuel, T. (01.09.2007). "Mikroformát hOCR pro pracovní postup a výsledky OCR". Devátá mezinárodní konference o analýze a uznávání dokumentů (ICDAR 2007). 2: 1063–1067. doi:10.1109 / ICDAR.2007.4377078. ISBN 978-0-7695-2822-9.
externí odkazy
- specifikace aktuální verze 1.2
- hocr-tools - nástroje pro manipulaci a hodnocení formátu hOCR na GitHub
- ocr-fileformat - software, který ověřuje a transformuje různé formáty souborů OCR včetně hOCR na GitHubu
![]() | Tento počítačové úložiště související článek je a pahýl. Wikipedii můžete pomoci pomocí rozšiřovat to. |