OutWit Hub - OutWit Hub
Vývojáři | OutWit Technologies |
---|---|
Operační systém | Microsoft Windows, Operační Systém Mac, Linux |
Typ | Škrábání webu, správce stahování |
Licence | Proprietární |
webová stránka | přelstít |
OutWit Hub je Extrakce webových dat softwarová aplikace určená k automatickému získávání informací z online nebo místních zdrojů. Rozpoznává a získává odkazy, obrázky, dokumenty, kontakty, opakující se slovní zásobu a fráze, kanály RSS a převádí strukturovaná a nestrukturovaná data do formátovaných tabulek, které lze exportovat do tabulky nebo databáze. První verze byla vydána v roce 2010. Verze 8.0 byla vydána v červnu 2019.
Program obsahuje prohlížeč založený na Mozille a boční lištu, která umožňuje přístup k řadě pohledů s přednastavenými extraktory. Webové stránky a textové dokumenty jsou rozděleny do různých složek, které jsou v těchto pohledech prezentovány jako tabulky. Aplikace může procházet řadou odkazů a sekvencí stránky s výsledky vyhledávače extrahovat informační prvky, uspořádat je do tabulek a exportovat do různých formátů. Předdefinované extraktory umožňují shromažďovat strukturované tabulky, seznamy nebo kanály. Lze také vytvořit vlastní škrabky pro extrakci dat z méně strukturovaných prvků stránky.[1] Regulární výrazy lze zahrnout do škrabek i do jiných částí aplikace k definování proměnných rozpoznávacích značek.[2]
Ačkoli OutWit Hub je prezentován jako nástroj pro netechnické uživatele, skutečnost, že aplikace nepoužívá objektový model dokumentu Struktura jeho extrakcí zabraňuje vizuálnímu škrábání dat typu „point & grab“ a nutí uživatele, který chce vytvořit vlastní škrabky, definovat značky ve zdrojovém kódu stránky. Výhodou tohoto přístupu však je, že umožňuje přesnější definici extrakčních masek než uzly HTML a rychlejší provádění, protože strom modelu objektu dokumentu nemusí prohlížeč vykreslovat v době extrakce.
Verze
Program existuje ve dvou verzích: samostatná aplikace a Mozilla Firefox doplněk, které obsahují shodné funkce. Omezenou bezplatnou verzi lze stáhnout z webu vydavatele a sharewaru stahovat webové stránky.[3]
Funkce
- Rozpoznávání a získávání odkazů, e-mailových adres, strukturovaných i nestrukturovaných dat, novinky RSS
- Extrakce a stahování obrázků a dokumentů
- Extrakce textu se slovníkem slov a skupinami slov podle frekvence
- Automatické procházení s uživatelsky definovanými pravidly pro průzkum webu
- Automatické generování dotazů a URL podle vzorů
- Adresáře odkazů a dotazů
- Vlastní škrabky
- Automatizace maker
- Periodické provádění úloh
Pokročilé funkce
Vydání aplikace Enterprise zahrnuje pokročilé funkce extrakce a automatizace pro extrahování konkrétních nebo velkých objemů, odesílání řady automaticky generovaných dotazů HTTP nebo POST a nahrávání sešrotovaných dat na servery FTP.
Viz také
Podobné nástroje
- yahoo trubky
- Automatizace kdekoli - Webový extraktor a automatizační systém
- Octatools.com
Reference
- ^ „Používání“ oddělovačů a štítků „v Outwit Hub pro“. Datacrumble. Květen 2013.
- ^ „Jak na to: Škrábání ošklivého HTML pomocí„ regulárních výrazů “ve škrabce OutWit Hub“. Online žurnalistika. Listopad 2012.
- ^ „Jak používat OutWit Hub ke škrábání dat zdarma“. Interhacktives. Března 2014.