OpenRefine - OpenRefine
Vývojáři | Freebase, pak Google, nyní open source komunita |
---|---|
První vydání | 10. listopadu 2010 |
Stabilní uvolnění | 3.3 / 31. ledna 2020[1] |
Úložiště | |
Napsáno | Jáva [2] |
Plošina | Microsoft Windows, Linux, Operační Systém Mac |
K dispozici v | Angličtina, italština, čínština, japonština, francouzština |
Typ | |
Licence | Licence BSD |
webová stránka | openrefine |
OpenRefine, dříve volal Google Refine a před tím Freebase Gridworks, je samostatná desktopová aplikace s otevřeným zdrojovým kódem pro čištění dat a transformaci do jiných formátů, aktivitu známou jako hádka dat.[3] Je to podobné jako tabulkový kalkulátor aplikace (a mohou pracovat s formáty tabulkových souborů); chová se však spíše jako databáze.
Funguje to dál řádky dat, která mají buňky pod sloupy, což je velmi podobné relační databáze tabulky. Projekt OpenRefine se skládá z jedné tabulky. Uživatel může filtrovat řádky, které se mají zobrazit pomocí fazety které definují kritéria filtrování (například zobrazování řádků, kde daný sloupec není prázdný). Na rozdíl od tabulek se většina operací v OpenRefine provádí na všech viditelných řádcích: transformace všech buněk ve všech řádcích pod jedním sloupcem,[4] vytvoření nového sloupce na základě existujících dat sloupce atd. Všechny akce, které byly provedeny na datové sadě, jsou uloženy v projektu a lze je přehrát na jiné datové sadě.
Na rozdíl od tabulek nejsou v buňkách uloženy žádné vzorce, ale vzorce se používají k transformaci dat a transformace se provádí pouze jednou.[5] Lze zapisovat transformační výrazy General Refine Expression Language (GREL),[6] Jython (tj. Python) a Clojure.[7]
Program má webové uživatelské rozhraní. Není však hostován na webu (SAAS ), ale je k dispozici ke stažení a použití na místním počítači. Při spuštění OpenRefine se spustí a webový server a spustí prohlížeč k otevření webového uživatelského rozhraní napájeného tímto webovým serverem.
Možné použití softwaru
- Čištění špinavých dat: například pokud pracujete s textovým souborem s některými polostrukturovanými daty, lze je upravit pomocí transformací, fazet a shlukování, aby byla data čistě strukturovaná.[8]
- Transformace dat: převod hodnot do jiných formátů, normalizace a denormalizace.
- Analýza dat z webových stránek: OpenRefine má funkci načítání URL a jsoup Analyzátor HTML a stroj DOM.[9]
- Přidání dat do datové sady načtením z webových služeb (tj. vrací se JSON ).[10] Například lze použít pro geokódování adresy do zeměpisné souřadnice.[11]
- Zarovnávání k Wikidata (dříve Freebase[12]): to zahrnuje smíření - mapování řetězcových hodnot v buňkách na entity ve Wikidata.[13]
Podporované formáty z importu a exportu
Import je podporován z následujících formátů:[14]
- TSV, CSV
- Textový soubor s vlastními oddělovači nebo sloupci rozdělenými podle pevné šířky
- XML
- RDF třílůžkové (RDF / XML a Notace3 formáty serializace)
- JSON
- Tabulky Google[15]
Pokud jsou vstupní data v nestandardním textovém formátu, lze je importovat jako celé řádky bez rozdělení do sloupců a poté sloupce extrahovat později pomocí nástrojů OpenRefine. Archivované a komprimované soubory jsou podporovány (.zip, .tar.gz, .tgz, .tar.bz2, .gz nebo .bz2) a Zpřesnit může stahovat vstupní soubory z URL. Chcete-li jako vstup použít webové stránky, je možné importovat seznam adres URL a poté vyvolat funkci načítání adres URL.
Vývozní je podporován v následujících formátech:[16]
- TSV
- CSV
- Microsoft Excel
- Tabulka HTML
- Tabulky Google
- Exportér šablony: je možné definovat vlastní šablonu pro výstup dat, například jako MediaWiki stůl.
Celé projekty OpenRefine v nativním formátu lze exportovat jako .tar.gz archiv.
Dějiny
OpenRefine zahájil život jako Freebase Gridworks vyvinutý společností Metaweb a je k dispozici jako otevřený zdroj od ledna 2010.[17] Dne 16. července 2010 společnost Google získala Metaweb,[18] tvůrci Freebase, a 10. listopadu 2010 přejmenovali svůj software Freebase Gridworks na Google Refine a vydali verzi 2.0.[19] Dne 2. října 2012 původní autor David Huynh oznámil, že Google brzy zastaví aktivní podporu Google Refine.[20][21][22] Od té doby byla základna kódu v přechodu na projekt open source s názvem OpenRefine.[23]
Reference
- ^ „OpenRefine je bezplatný open source nástroj pro práci s chaotickými daty a jeho vylepšení: OpenRefine / OpenRefine“. 30. července 2019 - prostřednictvím GitHub.
- ^ „OpenRefine / OpenRefine - GitHub“. Citováno 25. června 2017.
- ^ „openrefine.github.com“. openrefine.org.
- ^ "Úpravy transformací: wiki stránka Úpravy buněk z Zpřesnit dokumentaci". Citováno 18. dubna 2012.
- ^ „Srovnání s tabulkovým procesorem: Stránka wiki úprav buněk v dokumentaci Zpřesnit“. Citováno 18. dubna 2012.
- ^ Obecné Upřesnit výrazový jazyk OpenRefine / OpenRefine Wiki GitHub. Github.com (03.04.2013). Citováno 2013-08-16.
- ^ „Výrazy: Upřesnit dokumentaci“. Citováno 18. dubna 2012.
- ^ „Screencast: Google Refine 2.0 - Úvod (1 ze 3) - úpravy vládních údajů“. Citováno 18. dubna 2012.
- ^ „Stripping HTML: Refine documentation wiki page“. Citováno 18. dubna 2012.
- ^ „FetchingURLsFromWebServices wiki stránka: Upřesnit dokumentaci“. Citováno 18. dubna 2012.
- ^ „Screencast: Google Refine 2.0 - Data Augmentation (3 of 3) - using Openstreetmap Nominatim for geocoding and Freebase for augmentation“. Citováno 18. dubna 2012.
- ^ "Schema Alignment: Refine documentation wiki page". Citováno 18. dubna 2012.
- ^ "Dokumentace OpenRefine: smíření". Citováno 12. března 2017.
- ^ „Dovozci: Upřesnit dokumentační wiki stránku“. Citováno 18. dubna 2012.
- ^ "Seznam změn pro 2,5". Citováno 18. dubna 2012.
- ^ „Export: Refine documentation wiki page“. Citováno 18. dubna 2012.
- ^ „Google Code Archive - Long-term storage for Google Code Project Hosting“. code.google.com.
- ^ „Oficiální blog Google: Hlubší porozumění pomocí Metaweb“. Citováno 18. dubna 2012.
- ^ „Google Opensource blog: Announcing Google Refine 2.0, a power tool for data wranglers“. Citováno 18. dubna 2012.
- ^ „Skupiny Google“. groups.google.com.
- ^ „Od Freebase Gridworks k Google Refine a nyní OpenRefine“.
- ^ OpenRefine Archivováno 2016-09-25 na Wayback Machine. OpenRefine. Citováno 2013-08-16.
- ^ google-refine - Google Refine, výkonný nástroj pro práci s chaotickými daty (dříve Freebase Gridworks) - Google Project Hosting. Code.google.com. Citováno 2013-08-16.