Slabý dohled - Weak supervision
Slabý dohled je pobočkou strojové učení kde se používají hlučné, omezené nebo nepřesné zdroje k poskytování signálu dohledu pro značení velkého množství tréninková data v učení pod dohledem nastavení.[1] Tento přístup snižuje zátěž získávání ručně označených datových souborů, což může být nákladné nebo nepraktické. Místo toho se používají levné slabé štítky s tím, že jsou nedokonalé, ale přesto je lze použít k vytvoření silného prediktivního modelu.[2]
Problém označených tréninkových dat
Modely a techniky strojového učení jsou stále více přístupné výzkumným pracovníkům a vývojářům; skutečná užitečnost těchto modelů však závisí na přístupu k vysoce kvalitním označeným tréninkovým datům.[3] Tato potřeba označených tréninkových dat se často ukazuje jako významná překážka při uplatňování modelů strojového učení v organizaci nebo odvětví.[1] Tento úzký profil se projevuje různými způsoby, včetně následujících příkladů:
Nedostatečné množství označených dat
Když se techniky strojového učení zpočátku používají v nových aplikacích nebo průmyslových odvětvích, často není k dispozici dostatek tréninkových dat pro použití tradičních procesů.[4] Některá průmyslová odvětví mají výhodu v tom, že jsou snadno k dispozici údaje o školení po desetiletí; ty, které tomu tak není, jsou ve značné nevýhodě. V takových případech může být získání tréninkových dat nepraktické, nákladné nebo nemožné bez čekání let na jejich akumulaci.
Nedostatečné odborné znalosti k označování údajů
Když označování údajů o školení vyžaduje konkrétní relevantní odbornost, může se vytvoření použitelného souboru údajů o školení rychle stát neúměrně nákladným.[4] K tomuto problému pravděpodobně dojde například v biomedicínské nebo související s bezpečností aplikace strojového učení.
Nedostatečný čas na označení a přípravu údajů
Většina času potřebného k implementaci strojového učení se věnuje přípravě datových sad.[4] Když se průmyslové nebo výzkumné pole potýká s problémy, které se od přírody rychle vyvíjejí, je nemožné shromáždit a připravit data dostatečně rychle, aby výsledky byly užitečné v reálných aplikacích. K tomuto problému může dojít například v detekce podvodů nebo kybernetická bezpečnost aplikace.
Existují i další oblasti strojového učení, které jsou rovněž motivovány poptávkou po zvýšené kvantitě a kvalitě označených tréninkových dat, ale k dosažení této poptávky používají různé techniky na vysoké úrovni. Mezi tyto další přístupy patří aktivní učení, učení pod dohledem, a přenos učení.[1]
Typy slabých štítků
Účelem slabých štítků je snížit náklady a zvýšit efektivitu lidského úsilí vynaloženého na údaje ručního označování. Mohou mít mnoho podob, včetně následujících:
- Nepřesné nebo nepřesné štítky: vývojáři mohou k vytváření použít méně přesný vstup od odborníků na předmět vyšší úrovně heuristická pravidla, definovat očekávané distribuce nebo uvalit další omezení na tréninková data.[5][2]
- Nepřesné štítky: vývojáři mohou použít levný a méně kvalitní vstup prostřednictvím prostředků, jako je crowdsourcing, k získání štítků, které jsou četné, ale neočekává se, že budou zcela správné.[2]
- Stávající zdroje: vývojáři mohou využít výhod stávajících zdrojů (jako jsou znalostní báze, alternativní datové sady nebo předem vyškolené modely[1]) vytvořit štítky, které jsou užitečné, i když se k danému úkolu nehodí dokonale.[2][6]
Aplikace slabého dohledu
Aplikace slabého dohledu jsou v komunitě výzkumu strojového učení četné a rozmanité.
V roce 2014 vědci z UC Berkeley využil principů slabého dohledu k navržení iterativního algoritmu učení, který závisí pouze na štítcích generovaných heuristikou a zmírňuje potřebu shromažďování jakýchkoli označení pravdy.[7][8] Algoritmus byl aplikován na data inteligentních měřičů, aby se dozvěděli o obsazenosti domácnosti, aniž by se kdykoli ptali na údaje o obsazenosti, což vyvolalo problémy soukromí a bezpečnosti, jak je uvedeno v článku v IEEE Spectrum.[9]
V roce 2018 vědci z UC Riverside navrhl metodu pro lokalizaci akcí / událostí ve videích s využitím pouze slabého dohledu, tj. štítků na úrovni videa, bez jakýchkoli informací o době zahájení a ukončení událostí během tréninku. Jejich práce [10] představil podobnost dvou videí založenou na pozornosti, která funguje jako regulátor pro učení se slabými štítky. Poté v roce 2019 představili nový problém [11] lokalizace událostí ve videích pomocí textových dotazů od uživatelů, ale se slabými anotacemi během tréninku. Později ve spolupráci s NEC Laboratories America byl zaveden podobný mechanismus zarovnání na základě pozornosti se slabými značkami pro přizpůsobení modelu sémantické segmentace zdroje do cílové domény [12]. Když se slabé štítky cílových obrazů odhadují pomocí zdrojového modelu, jedná se o bezobslužnou adaptaci domény, která nevyžaduje žádné náklady na anotaci cíle, a když jsou slabé štítky získány od anotátora, vznikne velmi malé množství nákladů na anotaci a spadá kategorie adaptace domény se slabým dohledem, která je v této práci poprvé představena pro sémantickou segmentaci.
Stanfordská Univerzita vědci vytvořili Snorkel, open-source systém pro rychlé shromažďování tréninkových dat pomocí slabého dohledu.[13] Snorkel využívá ústřední principy paradigmatu programování dat,[5] ve kterém vývojáři vytvářejí označovací funkce, které se pak používají k programovému označování dat, a používají techniky učení pod dohledem k posouzení přesnosti těchto označovacích funkcí.[14] Tímto způsobem lze potenciálně nekvalitní vstupy použít k vytvoření vysoce kvalitních modelů.
Ve společné práci s Google „Stanfordští vědci prokázali, že stávající zdroje znalostí organizace lze převést na slabé zdroje dohledu a použít je k podstatnému snížení nákladů a času na vývoj.[15]
V roce 2019 Massachusetts Institute of Technology a Google vědci vydali program cleanlab, první standardizovaný Krajta balíček pro strojové učení a hluboké učení s hlučnými štítky.[16] Cleanlab nářadí sebevědomé učení,[17][18] rámec teorie a algoritmů pro řešení nejistoty ve štítcích datových sad, (1) najít chyby štítků v souborech dat, (2) charakterizovat hluk štítků a (3) standardizovat a zjednodušit výzkum slabého dohledu a učení se hlučnými štítky.[19]
Výzkumní pracovníci v University of Massachusetts Amherst navrhnout doplnění tradičních aktivní učení přístupy získáváním štítků na funkcích spíše než na instancích v datové sadě.[20]
Výzkumní pracovníci v Univerzita Johna Hopkinse navrhnout snížení nákladů na označování datových souborů tím, že anotátoři poskytnou zdůvodnění podporující každou z jejich anotací dat, a poté je pomocí těchto zdůvodnění trénovat jak diskriminační, tak generativní modely pro označování dalších údajů.[21]
Výzkumní pracovníci v University of Alberta navrhnout metodu, která aplikuje tradiční přístupy aktivního učení ke zvýšení kvality nedokonalých značek poskytovaných slabým dohledem.[22]
- ^ A b C d Alex Ratner, Stephen Bach, Paroma Varma, Chris Ré A odkazování na práci mnoha dalších členů Hazy Research. „Slabý dohled: Nové paradigma programování pro strojové učení“. hazyresearch.github.io. Citováno 2019-06-05.CS1 maint: více jmen: seznam autorů (odkaz)
- ^ A b C d Zhou, Zhi-Hua (2018). „Stručný úvod do učení s omezeným dohledem“ (PDF). National Science Review. 5: 44–53. doi:10.1093 / NSR / NWX106. S2CID 44192968. Citováno 4. června 2019.
- ^ „Datové sady přes algoritmy“. Vesmírný stroj. Citováno 2019-06-05.
- ^ A b C Roh, Yuji (8. listopadu 2018). „Průzkum sběru dat pro strojové učení: velká data - perspektiva integrace AI“. arXiv:1811.03402 [cs.LG ].
- ^ A b Ré, Christopher; Selsam, Daniel; Wu, Sen; De Sa, Christopher; Ratner, Alexander (2016-05-25). "Programování dat: Rychlé vytváření velkých tréninkových sad". arXiv:1605.07723v3 [stat.ML ].
- ^ Cabannes, Vivien; Rudi, Alessandro; Bach, Francis (2020). "Strukturovaná predikce s částečným značením skrz infimní ztrátu". ICML. 37. arXiv:2003.00920.
- ^ Jin, Ming; Jia, Ruoxi; Kang, Zhaoyi; Konstantakopoulos, Ioannis; Spanos, Costas (2014). "PresenceSense: algoritmus nulového tréninku pro detekci individuální přítomnosti na základě monitorování výkonu". Sborník z 1. konference ACM o vestavěných systémech pro energeticky účinné budovy: 1–10. doi:10.1145/2674061.2674073.
- ^ Jin, Ming; Jia, Ruoxi; Spanos, Costas (2017). "Virtuální snímání obsazenosti: pomocí inteligentních měřičů k indikaci vaší přítomnosti". Transakce IEEE na mobilních počítačích. 16 (11): 3264–3277. arXiv:1407.4395. doi:10.1109 / TMC.2017.2684806.
- ^ „Co o vás inteligentní měřič ví?“. IEEE Spectrum.
- ^ Paul, Sujoy; Roy, Sourya; Roy-Chowdhury, Amit K. (2018). „W-TALC: Lokalizace a klasifikace časové aktivity pod dohledem pod slabým dohledem“. Evropská konference o počítačovém vidění (ECCV). arXiv:1807.10418.
- ^ Mithun, Niluthpol Chowdhury; Paul, Sujoy; Roy-Chowdhury, Amit K. (2019). Msgstr "Slabě kontrolované načítání video momentů z textových dotazů". Počítačové vidění a rozpoznávání vzorů (CVPR). arXiv:1904.03282.
- ^ Paul, Sujoy; Tsai, Yi-Hsuan; Schulter, Samuel; Roy-Chowdhury, Amit K .; Chandraker, Manmohan (2020). "Sémantická segmentace s adaptivní doménou pomocí slabých štítků". Evropská konference o počítačovém vidění (ECCV). arXiv:2007.15176.
- ^ „Snorkel and the Dawn of Weakly Supervised Machine Learning · Stanford DAWN“. svítání.cs.stanford.edu. Citováno 2019-06-05.
- ^ „Snorkel by HazyResearch“. hazyresearch.github.io. Citováno 2019-06-05.
- ^ Malkin, Rob; Ré, Christopher; Kuchhal, Rahul; Alborzi, Houman; Hancock, Braden; Ratner, Alexander; Sen, Souvik; Xia, Cassandra; Shao, Haidong (02.12.2018). „Snorkel DryBell: Případová studie nasazení slabého dohledu v průmyslovém měřítku“. Řízení. Mezinárodní konference Acm-Sigmod o správě dat. 2019: 362–375. arXiv:1812.00417. Bibcode:2018arXiv181200417B. doi:10.1145/3299869.3314036. PMC 6879379. PMID 31777414.
- ^ „Announcing cleanlab: a Python Package for ML and Deep Learning on Datasets with Error Errors“. l7.curtisnorthcutt.com. Citováno 2020-02-04.
- ^ „Úvod do sebevědomého učení: hledání a učení s chybami štítků v datových sadách“. l7.curtisnorthcutt.com. Citováno 2020-02-04.
- ^ Northcutt, Curtis G .; Jiang, Lu; Chuang, Isaac L. (2019-10-31). "Spolehlivé učení: Odhad nejistoty ve štítcích datových sad". arXiv:1911.00068 [stat.ML ].
- ^ Northcutt, Curtis. „CleanLab pro hledání a učení s hlučnými štítky“. Citováno 9. října 2019.
- ^ Druck, Gregory. „Aktivní učení pomocí funkcí označování“ (PDF). Citováno 4. června 2019.
- ^ Zaidan, Omar. „Machine Learning with Annotator Rationales to snížit náklady na poznámky“ (PDF). Citováno 4. června 2019.
- ^ Nashaat, Mona; Ghosh, Aindrila; Miller, James; Quader, Shaikh; Marston, Čad; Puget, Jean-Francois (prosinec 2018). "Hybridizace aktivního učení a programování dat pro označování velkých průmyslových datových souborů". Mezinárodní konference IEEE 2018 o velkých datech (Big Data). Seattle, WA, USA: IEEE: 46–55. doi:10.1109 / BigData.2018.8622459. ISBN 9781538650356. S2CID 59233854.