Seznam datových sad pro výzkum strojového učení - List of datasets for machine-learning research
Část série na |
Strojové učení a dolování dat |
---|
Místa pro strojové učení |
Související články |
Tyto datové sady se používají pro strojové učení výzkumu a byly citovány v recenzováno akademické časopisy. Datové sady jsou nedílnou součástí oblasti strojového učení. Hlavní pokroky v této oblasti mohou být výsledkem pokroku v učení algoritmy (jako hluboké učení ), počítačový hardware a méně intuitivně dostupnost vysoce kvalitních tréninkových datových sad.[1] Vysoce kvalitní označené datové sady pro školení pod dohledem a částečně pod dohledem Algoritmy strojového učení jsou obvykle obtížné a nákladné z důvodu velkého množství času potřebného k označení dat. Ačkoli nemusí být označeny, vysoce kvalitní datové sady pro bez dozoru učení může být také obtížné a nákladné.[2][3][4][5]
Obrazová data
Datové sady sestávající převážně z obrázků nebo videí pro úkoly jako např detekce objektů, Rozpoznávání obličeje, a klasifikace více štítků.
Rozpoznávání obličeje
v počítačové vidění byly k vývoji hojně používány obrázky tváří systémy rozpoznávání obličeje, detekce obličeje a mnoho dalších projektů, které používají obrázky tváří.
Název datové sady | Stručný popis | Předběžné zpracování | Instance | Formát | Výchozí úkol | Vytvořeno (aktualizováno) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
Aff-Wild | 298 videí 200 jednotlivců, ~ 1 250 000 ručně anotovaných obrázků: anotováno z hlediska dimenzionálního afektu (valenční vzrušení); prostředí ve volné přírodě; databáze barev; různá rozlišení (průměr = 640x360) | detekované tváře, orientační body obličeje a poznámky o valenčním vzrušení | ~ 1 250 000 ručně anotovaných obrázků | video (vizuální + zvukové modality) | ovlivnit rozpoznávání (odhad valence a vzrušení) | 2017 | CVPR[6] IJCV[7] | D.Kollias a kol. |
Aff-Wild2 | 558 videí 458 jednotlivců, ~ 2 800 000 ručně anotovaných obrázků: anotováno z hlediska i) kategorického afektu (7 základních výrazů: neutrální, štěstí, smutek, překvapení, strach, znechucení, hněv); ii) dimenzionální afekt (valenční vzrušení); iii) akční jednotky (AU 1,2,4,6,12,15,20,25); prostředí ve volné přírodě; databáze barev; různá rozlišení (průměr = 1030x630) | detekované tváře, detekované a zarovnané tváře a poznámky | ~ 2 800 000 ručně anotovaných obrázků | video (vizuální + zvukové modality) | ovlivnit rozpoznávání (odhad valence a vzrušení, základní klasifikace výrazů, detekce akčních jednotek) | 2019 | BMVC[8] FG[9] | D.Kollias a kol. |
FERET (technologie rozpoznávání obličeje) | 11338 obrázků 1199 jedinců v různých pozicích a v různých časech. | Žádný. | 11,338 | snímky | Klasifikace, rozpoznávání tváře | 2003 | [10][11] | Ministerstvo obrany Spojených států |
Ryersonova audiovizuální databáze emoční řeči a písně (RAVDESS) | 7 356 obrazových a zvukových záznamů 24 profesionálních herců. 8 emocí, každá ve dvou intenzitách. | Soubory označené výrazem. Hodnocení percepčního ověření poskytnuté 319 hodnotiteli. | 7,356 | Video, zvukové soubory | Klasifikace, rozpoznávání tváře, rozpoznávání hlasu | 2018 | [12][13] | S.R. Livingstone a F.A. Russo |
SCFace | Barevné obrázky tváří v různých úhlech. | Umístění extrahovaných rysů obličeje. Souřadnice zadaných funkcí. | 4,160 | Obrázky, text | Klasifikace, rozpoznávání obličejů | 2011 | [14][15] | M. Grgic a kol. |
Databáze obličejů Yale | Tváře 15 osob v 11 různých výrazech. | Štítky výrazů. | 165 | snímky | Rozpoznávání obličejů | 1997 | [16][17] | J. Yang a kol. |
Cohn-Kanade kódovaná databáze výrazů AU | Velká databáze obrázků se štítky pro výrazy. | Sledování určitých rysů obličeje. | 500+ sekvencí | Obrázky, text | Analýza výrazu obličeje | 2000 | [18][19] | T. Kanade a kol. |
Databáze výrazů obličeje JAFFE | 213 snímků 7 výrazů obličeje (6 základních výrazů obličeje + 1 neutrální) od 10 japonských ženských modelů. | Snímky se oříznou do oblasti obličeje. Zahrnuje data sémantického hodnocení na emocionálních štítcích. | 213 | Obrázky, text | Poznání výrazu obličeje | 1998 | [20][21] | Lyons, Kamachi, Gyoba |
FaceScrub | Obrázky osobností veřejného života vymazané z vyhledávání obrázků. | Název a anotace m / f. | 107,818 | Obrázky, text | Rozpoznávání obličejů | 2014 | [22][23] | H. Ng a kol. |
Databáze obličejů BioID | Snímky tváří se značenými pozicemi očí. | Ručně nastavte polohy očí. | 1521 | Obrázky, text | Rozpoznávání obličejů | 2001 | [24][25] | BioID |
Datová sada segmentace kůže | Náhodně vzorkované hodnoty barev z obrázků obličeje. | B, G, R, extrahované hodnoty. | 245,057 | Text | Segmentace, klasifikace | 2012 | [26][27] | R. Bhatt. |
Bospor | Databáze 3D tváří. | Označeno 34 akčních jednotek a 6 výrazů; Označeno 24 orientačních bodů na obličeji. | 4652 | Obrázky, text | Rozpoznávání obličeje, klasifikace | 2008 | [28][29] | A Savran et al. |
UOY 3D-tvář | neutrální tvář, 5 výrazů: hněv, štěstí, smutek, zavřené oči, zvednuté obočí. | Značení. | 5250 | Obrázky, text | Rozpoznávání obličeje, klasifikace | 2004 | [30][31] | University of York |
3D databáze tváří CASIA | Výrazy: Hněv, úsměv, smích, překvapení, zavřené oči. | Žádný. | 4624 | Obrázky, text | Rozpoznávání obličeje, klasifikace | 2007 | [32][33] | Ústav automatizace, Čínská akademie věd |
CASIA NIR | Výrazy: Hněv Znechucení Strach Štěstí Smutek Překvapení | Žádný. | 480 | Komentované viditelné spektrum a blízké infračervené video zaznamenává rychlostí 25 snímků za sekundu | Rozpoznávání obličeje, klasifikace | 2011 | [34] | Zhao, G. a kol. |
BU-3DFE | neutrální tvář a 6 výrazů: hněv, štěstí, smutek, překvapení, znechucení, strach (4 úrovně). Extrahují se 3D obrázky. | Žádný. | 2500 | Obrázky, text | Rozpoznávání výrazu obličeje, klasifikace | 2006 | [35] | Binghamton University |
Velká výzva pro rozpoznávání tváří Datová sada | Až 22 vzorků pro každý předmět. Výrazy: hněv, štěstí, smutek, překvapení, znechucení, nafouklé. 3D data. | Žádný. | 4007 | Obrázky, text | Rozpoznávání obličeje, klasifikace | 2004 | [36][37] | Národní institut pro standardy a technologie |
Gavabdb | Až 61 vzorků pro každý předmět. Výrazy neutrální tvář, úsměv, čelní zvýrazněný smích, čelní náhodné gesto. 3D obrázky. | Žádný. | 549 | Obrázky, text | Rozpoznávání obličeje, klasifikace | 2008 | [38][39] | Univerzita krále Juana Carlose |
3D-RMA | Až 100 subjektů, výrazy většinou neutrální. Několik póz také. | Žádný. | 9971 | Obrázky, text | Rozpoznávání obličeje, klasifikace | 2004 | [40][41] | Královská vojenská akademie (Belgie) |
SoF | 112 osob (66 mužů a 46 žen) nosí brýle za různých světelných podmínek. | Sada syntetických filtrů (rozmazání, okluze, šum a posterizace) s různou úrovní obtížnosti. | 42 592 (2662 originálních obrázků × 16 syntetických obrázků) | Obrázky, soubor Mat | Klasifikace pohlaví, detekce obličeje, rozpoznávání obličeje, odhad věku a detekce brýlí | 2017 | [42][43] | Afifi, M. a kol. |
IMDB-WIKI | IMDB a Wikipedia čelí obrázkům se štítky pohlaví a věku. | Žádný | 523,051 | snímky | Genderová klasifikace, detekce obličeje, rozpoznávání obličeje, odhad věku | 2015 | [44] | R. Rothe, R. Timofte, L. V. Gool |
Rozpoznávání akcí
Název datové sady | Stručný popis | Předběžné zpracování | Instance | Formát | Výchozí úkol | Vytvořeno (aktualizováno) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
Datová sada TV Human Interaction | Videa z 20 různých televizních pořadů pro předpověď sociálních akcí: potřesení rukou, vysoká pětka, objetí, polibek a žádná. | Žádný. | 6 766 videoklipů | videoklipy | Akční předpověď | 2013 | [45] | Patron-Perez, A. a kol. |
Berkeley Multimodální databáze lidské činnosti (MHAD) | Záznamy jedné osoby provádějící 12 akcí | Předběžné zpracování MoCap | 660 akčních vzorků | 8 PhaseSpace Motion Capture, 2 stereofonní kamery, 4 quad kamery, 6 akcelerometrů, 4 mikrofony | Klasifikace akcí | 2013 | [46] | Ofli, F. a kol. |
Datová sada THUMOS | Velká datová sada videa pro klasifikaci akcí. | Akce klasifikované a označené. | 45 milionů snímků videa | Video, obrázky, text | Klasifikace, detekce akce | 2013 | [47][48] | Y. Jiang a kol. |
MEXAction2 | Video datová sada pro lokalizaci akce a špinění | Akce klasifikované a označené. | 1000 | Video | Detekce akce | 2014 | [49] | Stoian a kol. |
Detekce a rozpoznávání objektů
Název datové sady | Stručný popis | Předběžné zpracování | Instance | Formát | Výchozí úkol | Vytvořeno (aktualizováno) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
Vizuální genom | Obrázky a jejich popis | 108,000 | obrázky, text | Titulky obrázků | 2016 | [50] | R. Krishna a kol. | |
Datová sada 3D objektů Berkeley | 849 snímků pořízených v 75 různých scénách. Je označeno asi 50 různých tříd objektů. | Ohraničující rámečky a štítky. | 849 | označené obrázky, text | Rozpoznávání objektů | 2014 | [51][52] | A. Janoch a kol. |
Berkeley Segmentation Data Set and Benchmarks 500 (BSDS500) | 500 přirozených obrázků, výslovně rozdělených do disjunktního vlaku, ověřovací a testovací podmnožiny + testovací kód. Na základě BSDS300. | Každý snímek je v průměru rozdělen na pět různých subjektů. | 500 | Segmentované obrázky | Detekce kontur a hierarchická segmentace obrazu | 2011 | [53] | University of California, Berkeley |
Společné objekty Microsoft v kontextu (COCO) | složité každodenní scény běžných předmětů v jejich přirozeném kontextu. | Zvýraznění, označení a klasifikace objektů do 91 typů objektů. | 2,500,000 | Označené obrázky, text | Rozpoznávání objektů | 2015 | [54][55] | T. Lin a kol. |
SUN databáze | Velmi rozsáhlá databáze pro rozpoznávání scén a objektů. | Místa a objekty jsou označeny. Objekty jsou segmentovány. | 131,067 | Obrázky, text | Rozpoznávání objektů, rozpoznávání scén | 2014 | [56][57] | J. Xiao a kol. |
ImageNet | Databáze obrazů označených objektů, použitá v Velká výzva ImageNet pro vizuální rozpoznávání | Označené objekty, ohraničující rámečky, popisná slova, funkce SIFT | 14,197,122 | Obrázky, text | Rozpoznávání objektů, rozpoznávání scén | 2009 (2014) | [58][59][60] | J. Deng a kol. |
Otevřete obrázky | Velká sada obrázků uvedená jako licence CC BY 2.0 s popisky na úrovni obrázků a ohraničujícími rámečky zahrnující tisíce tříd. | Štítky na úrovni obrázku, ohraničující rámečky | 9,178,275 | Obrázky, text | Klasifikace, rozpoznávání objektů | 2017 | [61] | |
Datová sada komerční detekce televizního kanálu | Televizní reklamy a zpravodajství. | Funkce zvuku a videa extrahované ze statických obrázků. | 129,685 | Text | Shlukování, klasifikace | 2015 | [62][63] | P. Guha a kol. |
Datová sada Statlog (segmentace obrazu) | Instance byly namalovány náhodně z databáze 7 venkovních obrázků a ručně segmentovány, aby se vytvořila klasifikace pro každý pixel. | Vypočítáno mnoho funkcí. | 2310 | Text | Klasifikace | 1990 | [64] | University of Massachusetts |
Caltech 101 | Fotografie objektů. | Podrobné obrysy objektu jsou označeny. | 9146 | snímky | Klasifikace, rozpoznávání objektů. | 2003 | [65][66] | F. Li a kol. |
Caltech-256 | Velká datová sada obrázků pro klasifikaci objektů. | Obrázky roztříděny a ručně tříděny. | 30,607 | Obrázky, Text | Klasifikace, detekce objektů | 2007 | [67][68] | G. Griffin a kol. |
Datová sada SIFT10M | Vlastnosti SIFT datové sady Caltech-256. | Rozsáhlá extrakce funkcí SIFT. | 11,164,866 | Text | Klasifikace, detekce objektů | 2016 | [69] | X. Fu a kol. |
LabelMe | Komentované obrázky scén. | Objekty. | 187,240 | Obrázky, text | Klasifikace, detekce objektů | 2005 | [70] | Laboratoř informatiky a umělé inteligence MIT |
Datová sada městské scenérie | Stereo videosekvence zaznamenané v pouličních scénách s anotacemi na úrovni pixelů. Zahrnuty jsou i metadata. | Segmentace a označování na úrovni pixelů | 25,000 | Obrázky, text | Klasifikace, detekce objektů | 2016 | [71] | Daimler AG et al. |
Datová sada PASCAL VOC | Velké množství obrázků pro úkoly klasifikace. | Štítek, včetně ohraničujícího rámečku | 500,000 | Obrázky, text | Klasifikace, detekce objektů | 2010 | [72][73] | M. Everingham a kol. |
CIFAR-10 Datová sada | Mnoho malých obrazů 10 tříd objektů s nízkým rozlišením. | Označené třídy, rozdělení tréninkové sady vytvořeno. | 60,000 | snímky | Klasifikace | 2009 | [59][74] | A. Krizhevsky a kol. |
Datová sada CIFAR-100 | Stejně jako CIFAR-10 výše, ale je dáno 100 tříd objektů. | Označené třídy, vytvořena rozdělení tréninkové sady. | 60,000 | snímky | Klasifikace | 2009 | [59][74] | A. Krizhevsky a kol. |
Datová sada CINIC-10 | Jednotný příspěvek CIFAR-10 a Imagenet s 10 třídami a 3 rozděleními. Větší než CIFAR-10. | Třídy označené, školení, ověření, rozdělení testů vytvořeno. | 270,000 | snímky | Klasifikace | 2018 | [75] | Luke N. Darlow, Elliot J. Crowley, Antreas Antoniou, Amos J. Storkey |
Móda-MNIST | Databáze módních produktů podobných MNIST | Označené třídy, rozdělení tréninkové sady vytvořeno. | 60,000 | snímky | Klasifikace | 2017 | [76] | Zalando SE |
notMNIST | Některá veřejně dostupná písma a extrahované glyfy z nich, aby se vytvořila datová sada podobná MNIST. Existuje 10 tříd s písmeny A-J převzatými z různých písem. | Označené třídy, rozdělení tréninkové sady vytvořeno. | 500,000 | snímky | Klasifikace | 2011 | [77] | Yaroslav Bulatov |
Německá srovnávací datová sada pro detekci dopravních značek | Snímky z dopravních značek na německých silnicích. Tyto značky odpovídají normám OSN, a proto jsou stejné jako v jiných zemích. | Značky označeny ručně | 900 | snímky | Klasifikace | 2013 | [78][79] | S Houben a kol. |
Datová sada KITTI Vision Benchmark | Autonomní vozidla projíždějící městem střední velikosti zachytila snímky různých oblastí pomocí fotoaparátů a laserových skenerů. | Mnoho referenčních hodnot získaných z dat. | > 100 GB dat | Obrázky, text | Klasifikace, detekce objektů | 2012 | [80][81] | Geiger a kol. |
Datová sada Linnaeus 5 | Obrázky 5 tříd objektů. | Označené třídy, vytvořena rozdělení tréninkové sady. | 8000 | snímky | Klasifikace | 2017 | [82] | Chaladze a Kalatozishvili |
FieldSAFE | Multimodální datová sada pro detekci překážek v zemědělství, včetně stereokamery, termální kamery, webové kamery, 360stupňové kamery, lidaru, radaru a přesné lokalizace. | Třídy označené geograficky. | > 400 GB dat | Obrázky a 3D mračna bodů | Klasifikace, detekce objektů, lokalizace objektů | 2017 | [83] | M. Kragh a kol. |
11K ruce | 11 076 ručních obrázků (1 600 x 1 200 pixelů) 190 subjektů různého věku ve věku 18–75 let určených k rozpoznávání pohlaví a biometrické identifikaci. | Žádný | 11 076 ručních obrázků | Obrázky a soubory štítků (.mat, .txt a .csv) | Rozpoznávání pohlaví a biometrická identifikace | 2017 | [84] | M Afifi |
CORe50 | Speciálně navržená pro kontinuální / celoživotní učení a rozpoznávání objektů je kolekce více než 500 videí (30 snímků za sekundu) z 50 domácích objektů patřících do 10 různých kategorií. | Označené třídy, rozdělení tréninkové sady vytvořené na základě třísměrného víceúčelového standardu. | 164 866 snímků RBG-D | obrázky (.png nebo .pkl) a (.pkl, .txt, .tsv) soubory štítků | Klasifikace, rozpoznávání objektů | 2017 | [85] | V. Lomonaco a D. Maltoni |
Objekt OpenLORIS | Celoživotní / kontinuální datová sada robotického vidění (OpenLORIS-Object) shromážděná skutečnými roboty připojenými k více senzorům s vysokým rozlišením, obsahuje kolekci 121 instancí objektů (1. verze datové sady, 40 kategorií předmětů denní potřeby do 20 scén). Datová sada důsledně zohledňuje 4 faktory prostředí v různých scénách, včetně osvětlení, okluze, velikosti pixelu objektu a nepořádku, a explicitně definuje úrovně obtížnosti každého faktoru. | Označené třídy, tréninkové / ověřovací / testovací rozdělení souborů vytvořené srovnávacími skripty. | 1 106 424 snímků RBG-D | obrázky (.png a .pkl) a (.pkl) soubory štítků | Klasifikace, celoživotní rozpoznávání objektů, robotické vidění | 2019 | [86] | Otázka: Ona a kol. |
Sada dat THz a termálního videa | Tato multispektrální datová sada obsahuje terahertzová, termální, vizuální, blízká infračervená a trojrozměrná videa předmětů ukrytých pod lidským oblečením. | K dispozici jsou 3D vyhledávací tabulky, které vám umožní promítat obrázky na 3D mračna bodů. | Více než 20 videí. Délka každého videa je přibližně 85 sekund (přibližně 345 snímků). | AP2J | Experimenty s detekcí skrytých objektů | 2019 | [87][88] | Alexej A. Morozov a Olga S. Sushkova |
Rukopis a rozpoznávání znaků
Název datové sady | Stručný popis | Předběžné zpracování | Instance | Formát | Výchozí úkol | Vytvořeno (aktualizováno) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
Datová sada umělých postav | Uměle generovaná data popisující strukturu 10 velkých anglických písmen. | Souřadnice čar nakreslených jako celá čísla. Různé další funkce. | 6000 | Text | Rozpoznávání rukopisu, klasifikace | 1992 | [89] | H. Guvenir a kol. |
Datová sada dopisu | Velká tištěná písmena. | Ze všech obrázků je extrahováno 17 funkcí. | 20,000 | Text | OCR, klasifikace | 1991 | [90][91] | D. Slate a kol. |
CASIA-HWDB | Offline ručně čínský znak databáze. 3755 tříd v GB 2312 znaková sada. | Šedé obrázky s pixely pozadí označenými jako 255. | 1,172,907 | Obrázky, Text | Rozpoznávání rukopisu, klasifikace | 2009 | [92] | CASIA |
CASIA-OLHWDB | Online ručně psaná databáze čínských znaků, shromážděná pomocí Anoto pera na papíře. 3755 tříd v GB 2312 znaková sada. | Poskytuje posloupnosti souřadnic tahů. | 1,174,364 | Obrázky, Text | Rozpoznávání rukopisu, klasifikace | 2009 | [93][92] | CASIA |
Datová sada trajektorií znaků | Označené vzorky trajektorií špiček pera pro lidi, kteří píší jednoduché znaky. | 3-dimenzionální matice trajektorie rychlosti špičky pera pro každý vzorek | 2858 | Text | Rozpoznávání rukopisu, klasifikace | 2008 | [94][95] | B. Williams |
Chars74K datová sada | Rozpoznávání znaků v přirozených obrázcích symbolů používaných v angličtině i angličtině Kannadština | 74,107 | Rozpoznávání znaků, rozpoznávání rukopisu, OCR, klasifikace | 2009 | [96] | T. de Campos | ||
Datová sada znaků UJI Pen | Izolované ručně psané znaky | Souřadnice polohy pera při psaní znaků. | 11,640 | Text | Rozpoznávání rukopisu, klasifikace | 2009 | [97][98] | F. Prat a kol. |
Datová sada Gisette | Ukázky rukopisu od často zaměňovaných znaků 4 a 9. | Funkce extrahované z obrázků, rozdělené do vlaku / testu, obrázky rukopisu normalizované podle velikosti. | 13,500 | Obrázky, text | Rozpoznávání rukopisu, klasifikace | 2003 | [99] | Yann LeCun a kol. |
Datová sada Omniglot | 1623 různých ručně psaných znaků z 50 různých abeced. | Ručně značené. | 38,300 | Obrázky, text, tahy | Klasifikace, jednorázové učení | 2015 | [100][101] | Americká asociace pro rozvoj vědy |
MNIST databáze | Databáze ručně psaných číslic. | Ručně značené. | 60,000 | Obrázky, text | Klasifikace | 1998 | [102][103] | Národní institut pro standardy a technologie |
Optické rozpoznávání ručně psaných číslic datové sady | Normalizované bitmapy ručně psaných dat. | Velikost normalizována a mapována na bitmapy. | 5620 | Obrázky, text | Rozpoznávání rukopisu, klasifikace | 1998 | [104] | E. Alpaydin a kol. |
Pero-rozpoznávání ručně psaných číslic datové sady | Ručně psané číslice na elektronickém tabletu. | Vektory prvků extrahované tak, aby byly rovnoměrně rozmístěny. | 10,992 | Obrázky, text | Rozpoznávání rukopisu, klasifikace | 1998 | [105][106] | E. Alpaydin a kol. |
Datová sada Semeion Ručně psané číslice | Ručně psané číslice od 80 lidí. | Všechny ručně psané číslice byly normalizovány podle velikosti a mapovány do stejné mřížky. | 1593 | Obrázky, text | Rozpoznávání rukopisu, klasifikace | 2008 | [107] | T. Srl |
HASYv2 | Ručně psané matematické symboly | Všechny symboly jsou vycentrovány a mají velikost 32px x 32px. | 168233 | Obrázky, text | Klasifikace | 2017 | [108] | Martin Thoma |
Hlučná ručně psaná datová sada Bangla | Zahrnuje ručně psanou číselnou datovou sadu (10 tříd) a základní datovou sadu znaků (50 tříd). Každá datová sada obsahuje tři typy šumu: bílý gaussian, rozmazání pohybem a snížený kontrast. | Všechny obrázky jsou vycentrovány a mají velikost 32x32. | Číselná datová sada: 23330, Datová sada znaků: 76000 | Snímky, text | Rozpoznávání rukopisu, klasifikace | 2017 | [109][110] | M. Karki a kol. |
Letecké snímky
Název datové sady | Stručný popis | Předběžné zpracování | Instance | Formát | Výchozí úkol | Vytvořeno (aktualizováno) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
Datová sada pro segmentaci leteckých snímků | 80 leteckých snímků s vysokým rozlišením s prostorovým rozlišením od 0,3 do 1,0. | Ručně segmentované obrázky. | 80 | snímky | Klasifikace antén, detekce objektů | 2013 | [111][112] | J. Yuan a kol. |
Sada dat KIT AIS | Několik označených datových souborů pro výcvik a hodnocení leteckých snímků davů. | Ručně označené obrázky, které ukazují cesty jednotlivců davem. | ~ 150 | Obrázky s cestami | Sledování lidí, letecké sledování | 2012 | [113][114] | M. Butenuth a kol. |
Datová sada Wilt | Data vzdáleného průzkumu nemocných stromů a jiné krajinné pokrývky. | Různé funkce extrahovány. | 4899 | snímky | Klasifikace, detekce vzdušných objektů | 2014 | [115][116] | B. Johnson |
Datová sada MASATI | Námořní scény optických leteckých snímků z viditelného spektra. Obsahuje barevné obrázky v dynamickém mořském prostředí, každý obrázek může obsahovat jeden nebo více cílů za různých povětrnostních a osvětlovacích podmínek. | Ohraničující rámečky a štítky. | 7389 | snímky | Klasifikace, detekce vzdušných objektů | 2018 | [117][118] | AJ. Gallego a kol. |
Datová sada mapování typu lesa | Satelitní snímky lesů v Japonsku. | Extrahovaná pásma vlnové délky obrazu. | 326 | Text | Klasifikace | 2015 | [119][120] | B. Johnson |
Soubor dat z průzkumu snímků nad hlavou | Komentované snímky nad hlavou. Obrázky s více objekty. | Více než 30 anotací a více než 60 statistik, které popisují cíl v kontextu obrázku. | 1000 | Obrázky, text | Klasifikace | 2009 | [121][122] | F. Tanner a kol. |
SpaceNet | SpaceNet je soubor komerčních satelitních snímků a označených tréninkových dat. | Soubory GeoTiff a GeoJSON obsahující stopy budov. | >17533 | snímky | Klasifikace, identifikace objektu | 2017 | [123][124][125] | DigitalGlobe, Inc. |
Datová sada UC Merced Land Use | Tyto obrázky byly ručně extrahovány z velkých obrázků ze sbírky USGS National Map Urban Area Imagery pro různé městské oblasti po USA. | Jedná se o datový soubor využití půdy třídy 21 určený pro výzkumné účely. Pro každou třídu je k dispozici 100 obrázků. | 2,100 | Obrazové čipy 256 x 256, 30 cm (1 stopa) GSD | Klasifikace krajinného pokryvu | 2010 | [126] | Yi Yang a Shawn Newsam |
Datová sada SAT-4 ve vzduchu | Snímky byly získány z datové sady NAIP (National Agriculture Imagery Program). | SAT-4 má čtyři široké třídy pokrytí půdy, zahrnuje neúrodnou půdu, stromy, louky a třídu, která se skládá ze všech tříd pokrytí půdy kromě výše uvedených tří. | 500,000 | snímky | Klasifikace | 2015 | [127][128] | S. Basu a kol. |
Datová sada SAT-6 ve vzduchu | Snímky byly získány z datové sady NAIP (National Agriculture Imagery Program). | SAT-6 má šest širokých tříd pokrytí půdy, zahrnuje neúrodnou půdu, stromy, louky, silnice, budovy a vodní útvary. | 405,000 | snímky | Klasifikace | 2015 | [127][128] | S. Basu a kol. |
Další obrázky
Název datové sady | Stručný popis | Předběžné zpracování | Instance | Formát | Výchozí úkol | Vytvořeno (aktualizováno) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
Hustota funkční teorie kvantové simulace grafenu | Označené obrázky surového vstupu do simulace grafenu | Nezpracovaná data (ve formátu HDF5) a výstupní štítky z kvantové simulace funkční teorie hustoty | 60744 testovacích a 501473 a tréninkových souborů | Označené obrázky | Regrese | 2019 | [129] | K. Mills a I. Tamblyn |
Kvantové simulace elektronu v jamce dvourozměrného potenciálu | Označené obrázky surového vstupu do simulace 2D kvantové mechaniky | Nezpracovaná data (ve formátu HDF5) a výstupní štítky z kvantové simulace | 1,3 milionu obrázků | Označené obrázky | Regrese | 2017 | [130] | K. Mills, M.A. Spanner a I. Tamblyn |
Datová sada MPII Cooking Activities | Videa a obrázky různých kuchařských aktivit. | Cesty a směry aktivit, štítky, popisy pohybu s jemným zrním, třída aktivity, extrakce a popisování statických obrázků. | 881 755 snímků | Označené video, obrázky, text | Klasifikace | 2012 | [131][132] | M. Rohrbach a kol. |
Datová sada FAMOS | 5 000 jedinečných mikrostruktur, všechny vzorky byly získány třikrát dvěma různými kamerami. | Originální soubory PNG, seřazené podle kamery a poté podle akvizice. Datové soubory MATLAB s jednou 16384 krát 5 000 maticí na kameru na jednu akvizici. | 30,000 | Soubory obrázků a .mat | Ověření | 2012 | [133] | S. Voloshynovskiy a kol. |
Datová sada PharmaPack | 1 000 jedinečných tříd s 54 obrázky na třídu. | Označování tříd, mnoho místních deskriptorů, jako je SIFT a aKaZE, a místní tvůrci funkcí, jako je Fisher Vector (FV). | 54,000 | Soubory obrázků a .mat | Klasifikace jemných zrn | 2017 | [134] | O. Taran a S. Rezaeifar a kol. |
Datová sada Stanford Dogs | Obrázky 120 plemen psů z celého světa. | Poskytují se tréninkové / testovací rozdělení a anotace ImageNet. | 20,580 | Obrázky, text | Klasifikace jemných zrn | 2011 | [135][136] | A. Khosla a kol. |
Stanford Extra datová sada | 2D klíčové body a segmentace pro datovou sadu Stanford Dogs. | Poskytnuty 2D klíčové body a segmentace. | 12,035 | Označené obrázky | 3D rekonstrukce / odhad pozice | 2020 | [137] | B. Biggs a kol. |
Sada dat o zvířatech Oxford-IIIT | 37 kategorií domácích mazlíčků se zhruba 200 obrázky každého z nich. | Označené plemeno, těsně ohraničující rámeček, segmentace popředí a pozadí. | ~ 7,400 | Obrázky, text | Klasifikace, detekce objektů | 2012 | [136][138] | O. Parkhi a kol. |
Soubor dat funkce Corel Image | Databáze obrázků s extrahovanými funkcemi. | Mnoho funkcí, včetně barevného histogramu, textury společného výskytu a barevných momentů, | 68,040 | Text | Klasifikace, detekce objektů | 1999 | [139][140] | M. Ortega-Bindenberger et al. |
Online datové charakteristiky videa a doba překódování. | Překódovací časy pro různá různá videa a vlastnosti videa. | Video funkce uvedeny. | 168,286 | Text | Regrese | 2015 | [141] | T. Deneke a kol. |
Datová sada Microsoft Sequential Image Narrative Dataset (SIND) | Datová sada pro postupné vidění do jazyka | U každé fotografie jsou uvedeny popisné titulky a vyprávění a fotografie jsou uspořádány do sekvencí | 81,743 | Obrázky, text | Vizuální vyprávění | 2016 | [142] | Microsoft Research |
Datová sada Caltech-UCSD Birds-200-2011 | Velká datová sada obrázků ptáků. | Umístění dílů pro ptáky, ohraničující rámečky, zadáno 312 binárních atributů | 11,788 | Obrázky, text | Klasifikace | 2011 | [143][144] | C. Wah a kol. |
YouTube-8M | Velká a různorodá datová sada se značkami | ID videa YouTube a přidružené štítky z rozmanité slovní zásoby 4800 vizuálních entit | 8 milionů | Video, text | Klasifikace videa | 2016 | [145][146] | S. Abu-El-Haija et al. |
YFCC100M | Velká a různorodá datová sada označených obrázků a videí | Videa a obrázky Flickr a související popis, názvy, značky a další metadata (například EXIF a geotagy) | 100 miliónů | Video, obrázek, text | Klasifikace videa a obrázků | 2016 | [147][148] | B. Thomee a kol. |
Diskrétní LIRIS-ACCEDE | Krátká videa s poznámkami o valenci a vzrušení. | Štítek valence a vzrušení. | 9800 | Video | Detekce vyvolání emocí videa | 2015 | [149] | Y. Baveye a kol. |
Kontinuální LIRIS-ACCEDE | Dlouhá videa opatřená poznámkami o valenci a vzrušení a zároveň shromažďující Galvanic Skin Response. | Štítek valence a vzrušení. | 30 | Video | Detekce vyvolání emocí videa | 2015 | [150] | Y. Baveye a kol. |
MediaEval LIRIS-ACCEDE | Rozšíření diskrétní LIRIS-ACCEDE včetně anotací pro úrovně násilí ve filmech. | Popisky násilí, valence a vzrušení. | 10900 | Video | Detekce vyvolání emocí videa | 2015 | [151] | Y. Baveye a kol. |
Leeds Sports Pose | Kloubové anotace představující člověka na 2 000 přirozených sportovních obrázcích z Flickru. | Drsná plodina kolem jedné zájmové osoby se 14 společnými štítky | 2000 | Obrázky plus štítky souborů .mat | Odhad lidské pozice | 2010 | [152] | S. Johnson a M. Everingham |
Leeds Sports Pose Extended Training | Kloubové poznámky člověka představují na 10 000 přirozených sportovních obrázcích z Flickru. | 14 společných štítků prostřednictvím crowdsourcingu | 10000 | Obrázky plus štítky souborů .mat | Odhad lidské pozice | 2011 | [153] | S. Johnson a M. Everingham |
Datová sada MCQ | 6 různých reálných zkoušek založených na více možnostech (735 listů odpovědí a 33 540 polí odpovědí) k vyhodnocení technik a systémů počítačového vidění vyvinutých pro systémy hodnocení testů s výběrem odpovědí. | Žádný | 735 odpovědí a 33 540 odpovědí | Štítky obrázků a souborů .mat | Vývoj systémů hodnocení zkoušek s výběrem z několika možností | 2017 | [154][155] | Afifi, M. a kol. |
Dohledová videa | Skutečná sledovací videa pokrývají velkou dobu sledování (7 dní, každá s 24 hodinami). | Žádný | 19 sledovacích videí (7 dní, každé 24 hodin). | Videa | Komprese dat | 2016 | [156] | Taj-Eddin, I. A. T. F. a kol. |
LILA BC | Označená informační knihovna v Alexandrii: Biologie a ochrana. Označené obrázky, které podporují výzkum strojového učení v oblasti ekologie a vědy o životním prostředí. | Žádný | ~ 10 milionů obrázků | snímky | Klasifikace | 2019 | [157] | Pracovní skupina LILA |
Můžeme vidět fotosyntézu? | 32 videí pro osm živých a osm mrtvých listů zaznamenaných za stejnosměrných i střídavých světelných podmínek. | Žádný | 32 videí | Videa | Detekce živosti rostlin | 2017 | [158] | Taj-Eddin, I. A. T. F. a kol. |
Textová data
Datové sady skládající se převážně z textu pro úkoly jako např zpracování přirozeného jazyka, analýza sentimentu, překlad a shluková analýza.
Recenze
Název datové sady | Stručný popis | Předběžné zpracování | Instance | Formát | Výchozí úkol | Vytvořeno (aktualizováno) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
Recenze Amazon | Recenze produktů z USA od Amazon.com. | Žádný. | ~ 82 mil | Text | Klasifikace, analýza sentimentu | 2015 | [159] | McAuley a kol. |
Datová sada ReviewRank | Recenze automobilů a hotelů z Edmunds.com a TripAdvisor resp. | Žádný. | 42 230 / ~ 259 000 | Text | Analýza sentimentu, shlukování | 2011 | [160][161] | K. Ganesan a kol. |
MovieLens | 22 000 000 hodnocení a 580 000 značek aplikovaných na 33 000 filmů 240 000 uživatelů. | Žádný. | ~ 22 mil | Text | Regrese, shlukování, klasifikace | 2016 | [162] | GroupLens Research |
Yahoo! Hodnocení uživatelů hudby hudebních umělců | Více než 10 milionů hodnocení umělců od uživatelů Yahoo. | Žádné popsané. | ~ 10 mil | Text | Shlukování, regrese | 2004 | [163][164] | Yahoo! |
Soubor údajů o hodnocení vozu | Vlastnosti vozu a jejich celková přijatelnost. | Uvedeno šest kategorických funkcí. | 1728 | Text | Klasifikace | 1997 | [165][166] | M. Bohanec |
Datová sada preferencí YouTube Comedy Slam | Údaje o hlasování uživatelů pro dvojice videí zobrazených na YouTube. Uživatelé hlasovali pro zábavnější videa. | Byla zadána metadata videa. | 1,138,562 | Text | Klasifikace | 2012 | [167][168] | |
Datová sada uživatelských recenzí Skytrax | Uživatelské recenze leteckých společností, letišť, sedadel a salonků od Skytrax. | Hodnocení jsou jemná a zahrnují mnoho aspektů letištních zkušeností. | 41396 | Text | Klasifikace, regrese | 2015 | [169] | Q. Nguyen |
Datová sada pro hodnocení asistenta učitele | Recenze asistenta pedagoga. | Jsou uvedeny funkce každé instance, jako je třída, velikost třídy a instruktor. | 151 | Text | Klasifikace | 1997 | [170][171] | W. Loh a kol. |
Korpus zpětné vazby vietnamských studentů (UIT-VSFC) | Zpětná vazba studentů. | Komentáře | 16,000 | Text | Klasifikace | 1997 | [172] | Nguyen a kol. |
Korejský emocionální korpus sociálních médií (UIT-VSMEC) | Komentáře uživatelů na Facebooku. | Komentáře | 6,927 | Text | Klasifikace | 1997 | [173] | Nguyen a kol. |
Články zpráv
Název datové sady | Stručný popis | Předběžné zpracování | Instance | Formát | Výchozí úkol | Vytvořeno (aktualizováno) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
Datová sada NYSK | Anglické zpravodajské články o případu týkajícím se obvinění ze sexuálního napadení bývalého MMF ředitel Dominique Strauss-Kahn. | Filtrováno a prezentováno ve formátu XML. | 10,421 | XML, text | Analýza sentimentu, extrakce tématu | 2013 | [174] | Dermouche, M. a kol. |
Reuters Corpus Volume 1 | Velký korpus z Reuters novinové zprávy v angličtině. | Jemnozrnná kategorizace a tematické kódy. | 810,000 | Text | Klasifikace, shlukování, shrnutí | 2002 | [175] | Reuters |
Reuters Corpus Volume 2 | Velký korpus z Reuters novinové zprávy ve více jazycích. | Jemnozrnná kategorizace a tematické kódy. | 487,000 | Text | Klasifikace, shlukování, sumarizace | 2005 | [176] | Reuters |
Sbírka textového výzkumu Thomson Reuters | Velký korpus zpráv. | Detaily nejsou popsány. | 1,800,370 | Text | Klasifikace, shlukování, sumarizace | 2009 | [177] | T. Rose a kol. |
Saúdské noviny Corpus | 31 030 arabských novinových článků. | Metadata extrahována. | 31,030 | JSON | Shrnutí, shlukování | 2015 | [178] | M. Alhagri |
RE3D (datová sada pro vyhodnocení vztahů a extrakcí entit) | Subjekt a vztah označil data z různých zpravodajských a vládních zdrojů. Sponzorováno Dstl | Filtrováno, kategorizace pomocí typů Baleen | neznámý | JSON | Klasifikace, uznání subjektu a vztahu | 2017 | [179] | Dstl |
Zkoušející Spam Clickbait katalog | Clickbait, spam, nadpisy z davů od roku 2010 do roku 2015 | Publikovat datum a nadpisy | 3,089,781 | CSV | Shlukování, události, sentiment | 2016 | [180] | R. Kulkarni |
ABC Austrálie News Corpus | Celý zpravodajský korpus společnosti ABC Australia od roku 2003 do roku 2019 | Publikovat datum a nadpisy | 1,186,018 | CSV | Shlukování, události, sentiment | 2020 | [181] | R. Kulkarni |
Celosvětové novinky - agregát 20 tis Krmiva | Týdenní snímek všech online titulků ve více než 20 jazycích | Publikujte čas, URL a nadpisy | 1,398,431 | CSV | Shlukování, události, detekce jazyků | 2018 | [182] | R. Kulkarni |
Reuters Titulek novinky | 11 let časově značených událostí zveřejněných na zpravodajské lince | Publikujte čas, text nadpisu | 16,121,310 | CSV | NLP, výpočetní lingvistika, události | 2018 | [183] | R. Kulkarni |
Irish Times Irský korpus zpráv | 24 Years of Ireland News od roku 1996 do roku 2019 | Publikujte čas, kategorii nadpisu a text | 1,484,340 | CSV | NLP, výpočetní lingvistika, události | 2020 | [184] | R. Kulkarni |
Datové sady novinek pro detekci sarkasmu | Vysoce kvalitní datový soubor se sarkastickými a nesarkastickými titulky zpráv. | Čistý, normalizovaný text | 26,709 | JSON | NLP, klasifikace, lingvistika | 2018 | [185] | Rišabh Misra |
Zprávy
Název datové sady | Stručný popis | Předběžné zpracování | Instance | Formát | Výchozí úkol | Vytvořeno (aktualizováno) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
Enron Email Dataset | E-maily od zaměstnanců na Enron uspořádány do složek. | Odebrány přílohy, neplatné e-mailové adresy převedeny na adresu [email protected] nebo [email protected]. | ~ 500,000 | Text | Síťová analýza, analýza sentimentu | 2004 (2015) | [186][187] | Klimt, B. a Y. Yang |
Datová sada Ling-Spam | Korpus obsahující legitimní i spam e-maily. | Čtyři verze korpusu zahrnující také a lemmatizátor nebo seznam stop byl povolen. | 2,412 Ham 481 Spam | Text | Klasifikace | 2000 | [188][189] | Androutsopoulos, J. a kol. |
Datová sada pro sběr spamu SMS | Shromážděné spamové zprávy SMS. | Žádný. | 5,574 | Text | Klasifikace | 2011 | [190][191] | T. Almeida a kol. |
Dvacet datových skupin diskusních skupin | Zprávy z 20 různých diskusních skupin. | Žádný. | 20,000 | Text | Zpracování přirozeného jazyka | 1999 | [192] | T. Mitchell a kol. |
Spambase datová sada | Spamové e-maily. | Bylo extrahováno mnoho textových funkcí. | 4,601 | Text | Detekce spamu, klasifikace | 1999 | [193] | M. Hopkins a kol. |
Twitter a tweety
Název datové sady | Stručný popis | Předběžné zpracování | Instance | Formát | Výchozí úkol | Vytvořeno (aktualizováno) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
MovieTweetings | Datová sada hodnocení filmů na základě veřejných a dobře strukturovaných tweetů | ~710,000 | Text | Klasifikace, regrese | 2018 | [194] | S. Dooms | |
100 000 Twitter | Dvojice obrázků a tweetů | 100,000 | Text a obrázky | Cross-media retrieval | 2017 | [195][196] | Y. Hu a kol. | |
Sentiment 140 | Tweetujte data z roku 2009 včetně původního textu, časového razítka, uživatele a sentimentu. | Klasifikováno pomocí vzdáleného dohledu z přítomnosti emotikonu ve tweetu. | 1,578,627 | Tweety, čárka, oddělené hodnoty | Analýza sentimentu | 2009 | [197][198] | A. Go a kol. |
Datová sada ASU Twitter | Data ze sítě Twitter, nikoli skutečné tweety. Zobrazuje spojení mezi velkým počtem uživatelů. | Žádný. | 11 316 811 uživatelů, 85 331 846 připojení | Text | Shlukování, analýza grafů | 2009 | [199][200] | R. Zafarani a kol. |
Sociální kruhy SNAP: Databáze Twitter | Velká data ze sítě Twitter. | Funkce uzlu, kruhy a ego sítě. | 1,768,149 | Text | Shlukování, analýza grafů | 2012 | [201][202] | J. McAuley a kol. |
Datová sada Twitter pro analýzu arabského sentimentu | Arabské tweety. | Vzorky ručně označené jako pozitivní nebo negativní. | 2000 | Text | Klasifikace | 2014 | [203][204] | N. Abdulla |
Buzz v datové sadě sociálních médií | Data z Twitteru a Tomova hardwaru. Tato datová sada se zaměřuje na konkrétní témata buzzů diskutovaná na těchto webech. | Data jsou zobrazena v okně, aby se uživatel mohl pokusit předpovědět události vedoucí k rozruchu v sociálních médiích. | 140,000 | Text | Regrese, klasifikace | 2013 | [205][206] | F. Kawala a kol. |
Parafráze a sémantická podobnost na Twitteru (PIT) | Tato datová sada se zaměřuje na to, zda tweety mají (téměř) stejný význam / informace nebo ne. Ručně označeno. | tokenizace, část řeči a označení pojmenované entity | 18,762 | Text | Regrese, klasifikace | 2015 | [207][208] | Xu a kol. |
Datová sada srovnávacího testu Geoparse Twitter | Tato datová sada obsahuje tweety během různých zpravodajských událostí v různých zemích. Ručně označené umístění. | anotace umístění přidané do metadat JSON | 6,386 | Tweety, JSON | Klasifikace, extrakce informací | 2014 | [209][210] | S.E. Middleton a kol. |
Dialogy
Název datové sady | Stručný popis | Předběžné zpracování | Instance | Formát | Výchozí úkol | Vytvořeno (aktualizováno) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
Korpus chatu NPS | Příspěvky z online chatovacích místností podle věku. | Soukromí rukou maskované, označené pro část řeči a dialogu. | ~ 500,000 | XML | NLP, programování, lingvistika | 2007 | [211] | Forsyth, E., Lin, J., & Martell, C. |
Twitter Triple Corpus | A-B-A trojnásobky extrahované z Twitteru. | 4,232 | Text | NLP | 2016 | [212] | Sordini, A. a kol. | |
UseNet Corpus | Příspěvky na fóru UseNet. | Anonymizované e-maily a adresy URL. Vynechané dokumenty s délkou <500 slov nebo> 500 000 slov, nebo které byly <90% v angličtině. | 7 miliard | Text | 2011 | [213] | Shaoul, C., a Westbury C. | |
Korpus NUS SMS | SMS zprávy shromážděné mezi dvěma uživateli s analýzou načasování. | ~ 10,000 | XML | NLP | 2011 | [214] | KAN, M | |
Reddit Všechny komentáře Korpus | Všechny komentáře Reddit (od roku 2015). | ~ 1,7 miliardy | JSON | NLP, výzkum | 2015 | [215] | Stuck_In_the_Matrix | |
Korpus dialogu Ubuntu | Dialogy extrahované ze streamu chatu Ubuntu na IRC. | CSV | Výzkum systémů dialogů | 2015 | [216] | Lowe, R. a kol. |
Jiný text
Název datové sady | Stručný popis | Předběžné zpracování | Instance | Formát | Výchozí úkol | Vytvořeno (aktualizováno) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
Datová sada Web of Science | Hierarchické datové sady pro klasifikaci textu | Žádný. | 46,985 | Text | Klasifikace, Kategorizace | 2017 | [217][218] | K. Kowsari a kol. |
Právní případové zprávy | Federální soud Austrálie případů od roku 2006 do roku 2009. | Žádný. | 4,000 | Text | Shrnutí, citační analýza | 2012 | [219][220] | F. Galgani a kol. |
Korpus autorství bloggerů | Položky blogu 19 320 lidí z blogger.com. | Blogger poskytl pohlaví, věk, odvětví a astrologické znamení. | 681,288 | Text | Analýza sentimentu, sumarizace, klasifikace | 2006 | [221][222] | J. Schler a kol. |
Sociální struktura sítí Facebook | Velký datový soubor sociální struktury Facebooku. | Žádný. | 100 vysokých škol | Text | Síťová analýza, shlukování | 2012 | [223][224] | A. Traud a kol. |
Datová sada pro strojové porozumění textu | Příběhy a související otázky pro testování porozumění textu. | Žádný. | 660 | Text | Zpracování přirozeného jazyka, strojové porozumění | 2013 | [225][226] | M. Richardson a kol. |
Projekt Penn Treebank | Přirozeně se vyskytující text anotovaný pro jazykovou strukturu. | Text je rozebrán na sémantické stromy. | ~ 1 milion slov | Text | Zpracování přirozeným jazykem, shrnutí | 1995 | [227][228] | M. Marcus a kol. |
Datová sada DEXTER | Úkolem je určit z daných funkcí, které články se týkají korporátních akvizic. | Mezi extrahované funkce patří slovní stopky. Zahrnuty funkce distraktoru. | 2600 | Text | Klasifikace | 2008 | [229] | Reuters |
N-gramy Knih Google | N gramů z velmi velkého souboru knih | Žádný. | 2,2 TB textu | Text | Klasifikace, shlukování, regrese | 2011 | [230][231] | |
Personae Corpus | Shromážděno pro experimenty v autorském přisuzování a predikci osobnosti. Consists of 145 Dutch-language essays. | In addition to normal texts, syntactically annotated texts are given. | 145 | Text | Classification, regression | 2008 | [232][233] | K. Luyckx et al. |
CNAE-9 Dataset | Categorization task for free text descriptions of Brazilian companies. | Word frequency has been extracted. | 1080 | Text | Klasifikace | 2012 | [234][235] | P. Ciarelli et al. |
Sentiment Labeled Sentences Dataset | 3000 sentiment labeled sentences. | Sentiment of each sentence has been hand labeled as positive or negative. | 3000 | Text | Classification, sentiment analysis | 2015 | [236][237] | D. Kotzias |
BlogFeedback Dataset | Dataset to predict the number of comments a post will receive based on features of that post. | Many features of each post extracted. | 60,021 | Text | Regrese | 2014 | [238][239] | K. Buza |
Stanford Natural Language Inference (SNLI) Corpus | Image captions matched with newly constructed sentences to form entailment, contradiction, or neutral pairs. | Entailment class labels, syntactic parsing by the Stanford PCFG parser | 570,000 | Text | Natural language inference/recognizing textual entailment | 2015 | [240] | S. Bowman et al. |
DSL Corpus Collection (DSLCC) | A multilingual collection of short excerpts of journalistic texts in similar languages and dialects. | Žádný | 294,000 phrases | Text | Discriminating between similar languages | 2017 | [241] | Tan, Liling et al. |
Městský slovník Datová sada | Corpus of words, votes and definitions | User names anonymised | 2,580,925 | CSV | NLP, Machine comprehension | 2016 květen | [242] | Anonymní |
T rex | Wikipedia abstracts aligned with Wikidata subjekty | Alignment of Wikidata triples with Wikipedia abstracts | 11M aligned triples | JSON and NIF [1] | NLP, Relation Extraction | 2018 | [243] | H. Elsahar et al. |
General Language Understanding Evaluation (GLUE) | Benchmark of nine tasks | Rozličný | ~1M sentences and sentence pairs | NLU | 2018 | [244][245] | Wang a kol. | |
Atticus Open Contract Dataset (AOK) | Dataset of legal contracts with rich expert annotations | ~3,000 labels | CSV and PDF | Natural language processing, QnA | 2020 | The Atticus Project | ||
Vietnamese Image Captioning Dataset (UIT-ViIC) | Vietnamese Image Captioning Dataset | 19,250 captions for 3,850 images | CSV and PDF | Natural language processing, Computer vision | 2020 | [246] | Lam et al. | |
Vietnamese Names annotated with Genders (UIT-ViNames) | Vietnamese Names annotated with Genders | 26,850 Vietnamese full names annotated with genders | CSV | Zpracování přirozeného jazyka | 2020 | [247] | To et al. |
Sound data
Datasets of sounds and sound features.
Mluvený projev
Dataset Name | Stručný popis | Předběžné zpracování | Instances | Formát | Default Task | Created (updated) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
Zero Resource Speech Challenge 2015 | Spontaneous speech (English), Read speech (Xitsonga). | raw wav | English: 5h, 12 speakers; Xitsonga: 2h30; 24 speakers | zvuk | Unsupervised discovery of speech features/subword units/word units | 2015 | [248][249] | Versteegh et al. |
Parkinson Speech Dataset | Multiple recordings of people with and without Parkinson's Disease. | Voice features extracted, disease scored by physician using unified Parkinson's disease rating scale | 1,040 | Text | Classification, regression | 2013 | [250][251] | B. E. Sakar et al. |
Spoken Arabic Digits | Spoken Arabic digits from 44 male and 44 female. | Time-series of mel-frekvence cepstrum coefficients. | 8,800 | Text | Klasifikace | 2010 | [252][253] | M. Bedda et al. |
ISOLET Dataset | Spoken letter names. | Features extracted from sounds. | 7797 | Text | Klasifikace | 1994 | [254][255] | R. Cole et al. |
Japanese Vowels Dataset | Nine male speakers uttered two Japanese vowels successively. | Applied 12-degree linear prediction analysis to it to obtain a discrete-time series with 12 cepstrum coefficients. | 640 | Text | Klasifikace | 1999 | [256][257] | M. Kudo et al. |
Parkinson's Telemonitoring Dataset | Multiple recordings of people with and without Parkinson's Disease. | Sound features extracted. | 5875 | Text | Klasifikace | 2009 | [258][259] | A. Tsanas et al. |
TIMIT | Recordings of 630 speakers of eight major dialects of American English, each reading ten phonetically rich sentences. | Speech is lexically and phonemically transcribed. | 6300 | Text | Speech recognition, classification. | 1986 | [260][261] | J. Garofolo et al. |
Arabic Speech Corpus | A single-speaker, Moderní standardní arabština (MSA) speech corpus with phonetic and orthographic transcripts aligned to phoneme level | Speech is orthographically and phonetically transcribed with stress marks. | ~1900 | Text, WAV | Speech Synthesis, Speech Recognition, Corpus Alignment, Speech Therapy, Education. | 2016 | [262] | N. Halabi |
Společný hlas | A public domain database of crowdsourcing data across a wide range of dialects. | Validation by other users | English: 1,118 hours | MP3 with corresponding text files | Rozpoznávání řeči | June 2017 (December 2019) | [263] | Mozilla |
Hudba
Dataset Name | Stručný popis | Předběžné zpracování | Instances | Formát | Default Task | Created (updated) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
Geographic Origin of Music Data Set | Audio features of music samples from different locations. | Audio features extracted using MARSYAS software. | 1,059 | Text | Geographic classification, clustering | 2014 | [264][265] | F. Zhou et al. |
Million Song Dataset | Audio features from one million different songs. | Audio features extracted. | 1M | Text | Classification, clustering | 2011 | [266][267] | T. Bertin-Mahieux et al. |
MUSDB18 | Multi-track popular music recordings | Raw audio | 150 | MP4, WAV | Source Separation | 2017 | [268] | Z. Rafii et al. |
Archiv hudby zdarma | Audio under Creative Commons from 100k songs (343 days, 1TiB) with a hierarchy of 161 genres, metadata, user data, free-form text. | Raw audio and audio features. | 106,574 | Text, MP3 | Classification, recommendation | 2017 | [269] | M. Defferrard et al. |
Bach Choral Harmony Dataset | Bach chorale chords. | Audio features extracted. | 5665 | Text | Klasifikace | 2014 | [270][271] | D. Radicioni et al. |
Other sounds
Dataset Name | Stručný popis | Předběžné zpracování | Instances | Formát | Default Task | Created (updated) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
UrbanSound | Labeled sound recordings of sounds like air conditioners, car horns and children playing. | Sorted into folders by class of events as well as metadata in a JSON file and annotations in a CSV file. | 1,059 | Zvuk (WAV ) | Klasifikace | 2014 | [272][273] | J. Salamon et al. |
AudioSet | 10-second sound snippets from YouTube videos, and an ontology of over 500 labels. | 128-d PCA'd VGG-ish features every 1 second. | 2,084,320 | Text (CSV) and TensorFlow Record files | Klasifikace | 2017 | [274] | J. Gemmeke et al., Google |
Bird Audio Detection challenge | Audio from environmental monitoring stations, plus crowdsourced recordings | 17,000+ | Klasifikace | 2016 (2018) | [275][276] | Queen Mary University a Společnost pro zpracování signálů IEEE | ||
WSJ0 Hipster Ambient Mixtures | Audio from WSJ0 mixed with noise recorded in the Oblast zálivu San Francisco | Noise clips matched to WSJ0 clips | 28,000 | Zvuk (WAV ) | Audio source separation | 2019 | [277] | Wichern, G., et al., Whisper and MERL |
Clotho | 4,981 audio samples of 15 to 30 seconds long, each audio sample having five different captions of eight to 20 words long. | 24,905 | Zvuk (WAV ) and text (CSV ) | Automated audio captioning | 2020 | [278][279] | K. Drossos, S. Lipping, and T. Virtanen |
Signal data
Datasets containing electric signal information requiring some sort of Zpracování signálu pro další analýzu.
Elektrický
Dataset Name | Stručný popis | Předběžné zpracování | Instances | Formát | Default Task | Created (updated) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
Witty Worm Dataset | Dataset detailing the spread of the Witty worm and the infected computers. | Split into a publicly available set and a restricted set containing more sensitive information like IP and UDP headers. | 55,909 IP addresses | Text | Klasifikace | 2004 | [280][281] | Center for Applied Internet Data Analysis |
Cuff-Less Blood Pressure Estimation Dataset | Cleaned vital signals from human patients which can be used to estimate blood pressure. | 125 Hz vital signs have been cleaned. | 12,000 | Text | Classification, regression | 2015 | [282][283] | M. Kachuee et al. |
Gas Sensor Array Drift Dataset | Measurements from 16 chemical sensors utilized in simulations for drift compensation. | Extensive number of features given. | 13,910 | Text | Klasifikace | 2012 | [284][285] | A. Vergara |
Servo Dataset | Data covering the nonlinear relationships observed in a servo-amplifier circuit. | Levels of various components as a function of other components are given. | 167 | Text | Regrese | 1993 | [286][287] | K. Ullrich |
UJIIndoorLoc-Mag Dataset | Indoor localization database to test indoor positioning systems. Data is magnetic field based. | Train and test splits given. | 40,000 | Text | Classification, regression, clustering | 2015 | [288][289] | D. Rambla et al. |
Sensorless Drive Diagnosis Dataset | Electrical signals from motors with defective components. | Statistical features extracted. | 58,508 | Text | Klasifikace | 2015 | [290][291] | M. Bator |
Motion-tracking
Dataset Name | Stručný popis | Předběžné zpracování | Instances | Formát | Default Task | Created (updated) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
Wearable Computing: Classification of Body Postures and Movements (PUC-Rio) | People performing five standard actions while wearing motion trackers. | Žádný. | 165,632 | Text | Klasifikace | 2013 | [292][293] | Papežská katolická univerzita v Riu de Janeiru |
Gesture Phase Segmentation Dataset | Features extracted from video of people doing various gestures. | Features extracted aim at studying gesture phase segmentation. | 9900 | Text | Classification, clustering | 2014 | [294][295] | R. Madeo et a |
Vicon Physical Action Data Set Dataset | 10 normal and 10 aggressive physical actions that measure the human activity tracked by a 3D tracker. | Many parameters recorded by 3D tracker. | 3000 | Text | Klasifikace | 2011 | [296][297] | T. Theodoridis |
Daily and Sports Activities Dataset | Motor sensor data for 19 daily and sports activities. | Many sensors given, no preprocessing done on signals. | 9120 | Text | Klasifikace | 2013 | [298][299] | B. Barshan et al. |
Human Activity Recognition Using Smartphones Dataset | Gyroscope and accelerometer data from people wearing smartphones and performing normal actions. | Actions performed are labeled, all signals preprocessed for noise. | 10,299 | Text | Klasifikace | 2012 | [300][301] | J. Reyes-Ortiz et al. |
Australian Sign Language Signs | Australian sign language signs captured by motion-tracking gloves. | Žádný. | 2565 | Text | Klasifikace | 2002 | [302][303] | M. Kadous |
Weight Lifting Exercises monitored with Inertial Measurement Units | Five variations of the biceps curl exercise monitored with IMUs. | Some statistics calculated from raw data. | 39,242 | Text | Klasifikace | 2013 | [304][305] | W. Ugulino et al. |
sEMG for Basic Hand movements Dataset | Two databases of surface electromyographic signals of 6 hand movements. | Žádný. | 3000 | Text | Klasifikace | 2014 | [306][307] | C. Sapsanis et al. |
REALDISP Activity Recognition Dataset | Evaluate techniques dealing with the effects of sensor displacement in wearable activity recognition. | Žádný. | 1419 | Text | Klasifikace | 2014 | [307][308] | O. Banos et al. |
Heterogeneity Activity Recognition Dataset | Data from multiple different smart devices for humans performing various activities. | Žádný. | 43,930,257 | Text | Classification, clustering | 2015 | [309][310] | A. Stisen et al. |
Indoor User Movement Prediction from RSS Data | Temporal wireless network data that can be used to track the movement of people in an office. | Žádný. | 13,197 | Text | Klasifikace | 2016 | [311][312] | D. Bacciu |
PAMAP2 Physical Activity Monitoring Dataset | 18 different types of physical activities performed by 9 subjects wearing 3 IMUs. | Žádný. | 3,850,505 | Text | Klasifikace | 2012 | [313] | A. Reiss |
OPPORTUNITY Activity Recognition Dataset | Human Activity Recognition from wearable, object, and ambient sensors is a dataset devised to benchmark human activity recognition algorithms. | Žádný. | 2551 | Text | Klasifikace | 2012 | [314][315] | D. Roggen et al. |
Real World Activity Recognition Dataset | Human Activity Recognition from wearable devices. Distinguishes between seven on-body device positions and comprises six different kinds of sensors. | Žádný. | 3,150,000 (per sensor) | Text | Klasifikace | 2016 | [316] | T. Sztyler et al. |
Toronto Rehab Stroke Pose Dataset | 3D human pose estimates (Kinect) of stroke patients and healthy participants performing a set of tasks using a stroke rehabilitation robot. | Žádný. | 10 healthy person and 9 stroke survivors (3500-6000 frames per person) | CSV | Klasifikace | 2017 | [317][318][319] | E. Dolatabadi et al. |
Corpus of Social Touch (CoST) | 7805 gesture captures of 14 different social touch gestures performed by 31 subjects. The gestures were performed in three variations: gentle, normal and rough, on a pressure sensor grid wrapped around a mannequin arm. | Touch gestures performed are segmented and labeled. | 7805 gesture captures | CSV | Klasifikace | 2016 | [320][321] | M. Jung et al. |
Ostatní signály
Dataset Name | Stručný popis | Předběžné zpracování | Instances | Formát | Default Task | Created (updated) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
Wine Dataset | Chemical analysis of wines grown in the same region in Italy but derived from three different cultivars. | 13 properties of each wine are given | 178 | Text | Classification, regression | 1991 | [322][323] | M. Forina et al. |
Combined Cycle Power Plant Data Set | Data from various sensors within a power plant running for 6 years. | Žádný | 9568 | Text | Regrese | 2014 | [324][325] | P. Tufekci et al. |
Fyzická data
Datasets from physical systems.
Fyzika vysokých energií
Dataset Name | Stručný popis | Předběžné zpracování | Instances | Formát | Default Task | Created (updated) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
HIGGS Dataset | Monte Carlo simulations of particle accelerator collisions. | 28 features of each collision are given. | 11 mil | Text | Klasifikace | 2014 | [326][327][328] | D. Whiteson |
HEPMASS Dataset | Monte Carlo simulations of particle accelerator collisions. Goal is to separate the signal from noise. | 28 features of each collision are given. | 10,500,000 | Text | Klasifikace | 2016 | [327][328][329] | D. Whiteson |
Systémy
Dataset Name | Stručný popis | Předběžné zpracování | Instances | Formát | Default Task | Created (updated) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
Yacht Hydrodynamics Dataset | Yacht performance based on dimensions. | Six features are given for each yacht. | 308 | Text | Regrese | 2013 | [330][331] | R. Lopez |
Robot Execution Failures Dataset | 5 data sets that center around robotic failure to execute common tasks. | Integer valued features such as torque and other sensor measurements. | 463 | Text | Klasifikace | 1999 | [332] | L. Seabra et al. |
Pittsburgh Bridges Dataset | Design description is given in terms of several properties of various bridges. | Various bridge features are given. | 108 | Text | Klasifikace | 1990 | [333][334] | Y. Reich et al. |
Automobile Dataset | Data about automobiles, their insurance risk, and their normalized losses. | Car features extracted. | 205 | Text | Regrese | 1987 | [335][336] | J. Schimmer et al. |
Auto MPG Dataset | MPG data for cars. | Eight features of each car given. | 398 | Text | Regrese | 1993 | [337] | Univerzita Carnegie Mellon |
Energy Efficiency Dataset | Heating and cooling requirements given as a function of building parameters. | Building parameters given. | 768 | Text | Classification, regression | 2012 | [338][339] | A. Xifara et al. |
Airfoil Self-Noise Dataset | A series of aerodynamic and acoustic tests of two and three-dimensional airfoil blade sections. | Data about frequency, angle of attack, etc., are given. | 1503 | Text | Regrese | 2014 | [340] | R. Lopez |
Challenger USA Space Shuttle O-Ring Dataset | Attempt to predict O-ring problems given past Challenger data. | Several features of each flight, such as launch temperature, are given. | 23 | Text | Regrese | 1993 | [341][342] | D. Draper et al. |
Statlog (Shuttle) Dataset | NASA space shuttle datasets. | Nine features given. | 58,000 | Text | Klasifikace | 2002 | [343] | NASA |
Astronomie
Dataset Name | Stručný popis | Předběžné zpracování | Instances | Formát | Default Task | Created (updated) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
Volcanoes on Venus – JARtool experiment Dataset | Venus images returned by the Magellan spacecraft. | Images are labeled by humans. | nedáno | snímky | Klasifikace | 1991 | [344][345] | M. Burl |
MAGIC Gamma Telescope Dataset | Monte Carlo generated high-energy gamma particle events. | Numerous features extracted from the simulations. | 19,020 | Text | Klasifikace | 2007 | [345][346] | R. Bock |
Solar Flare Dataset | Measurements of the number of certain types of solar flare events occurring in a 24-hour period. | Many solar flare-specific features are given. | 1389 | Text | Regression, classification | 1989 | [347] | G. Bradshaw |
Věda o Zemi
Dataset Name | Stručný popis | Předběžné zpracování | Instances | Formát | Default Task | Created (updated) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
Sopky světa | Volcanic eruption data for all known volcanic events on earth. | Details such as region, subregion, tectonic setting, dominant rock type are given. | 1535 | Text | Regression, classification | 2013 | [348] | E. Venzke et al. |
Seismic-bumps Dataset | Seismic activities from a coal mine. | Seismic activity was classified as hazardous or not. | 2584 | Text | Klasifikace | 2013 | [349][350] | M. Sikora et al. |
Other physical
Dataset Name | Stručný popis | Předběžné zpracování | Instances | Formát | Default Task | Created (updated) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
Concrete Compressive Strength Dataset | Dataset of concrete properties and compressive strength. | Nine features are given for each sample. | 1030 | Text | Regrese | 2007 | [351][352] | I. Yeh |
Concrete Slump Test Dataset | Concrete slump flow given in terms of properties. | Features of concrete given such as fly ash, water, etc. | 103 | Text | Regrese | 2009 | [353][354] | I. Yeh |
Musk Dataset | Predict if a molecule, given the features, will be a musk or a non-musk. | 168 features given for each molecule. | 6598 | Text | Klasifikace | 1994 | [355] | Arris Pharmaceutical Corp. |
Steel Plates Faults Dataset | Steel plates of 7 different types. | 27 features given for each sample. | 1941 | Text | Klasifikace | 2010 | [356] | Semeion Research Center |
Biologické údaje
Datasets from biological systems.
Člověk
Dataset Name | Stručný popis | Předběžné zpracování | Instances | Formát | Default Task | Created (updated) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
EEG Database | Study to examine EEG correlates of genetic predisposition to alcoholism. | Measurements from 64 electrodes placed on the scalp sampled at 256 Hz (3.9 ms epoch) for 1 second. | 122 | Text | Klasifikace | 1999 | [357] | H. Begleiter |
P300 Interface Dataset | Data from nine subjects collected using P300-based brain-computer interface for disabled subjects. | Split into four sessions for each subject. MATLAB code given. | 1,224 | Text | Klasifikace | 2008 | [358][359] | U. Hoffman et al. |
Heart Disease Data Set | Attributed of patients with and without heart disease. | 75 attributes given for each patient with some missing values. | 303 | Text | Klasifikace | 1988 | [360][361] | A. Janosi et al. |
Breast Cancer Wisconsin (Diagnostic) Dataset | Dataset of features of breast masses. Diagnoses by physician is given. | 10 features for each sample are given. | 569 | Text | Klasifikace | 1995 | [362][363] | W. Wolberg et al. |
National Survey on Drug Use and Health | Large scale survey on health and drug use in the United States. | Žádný. | 55,268 | Text | Classification, regression | 2012 | [364] | Ministerstvo zdravotnictví a sociálních služeb USA |
Lung Cancer Dataset | Lung cancer dataset without attribute definitions | 56 features are given for each case | 32 | Text | Klasifikace | 1992 | [365][366] | Z. Hong et al. |
Arrhythmia Dataset | Data for a group of patients, of which some have cardiac arrhythmia. | 276 features for each instance. | 452 | Text | Klasifikace | 1998 | [367][368] | H. Altay et al. |
Diabetes 130-US hospitals for years 1999–2008 Dataset | 9 years of readmission data across 130 US hospitals for patients with diabetes. | Many features of each readmission are given. | 100,000 | Text | Classification, clustering | 2014 | [369][370] | J. Clore et al. |
Diabetic Retinopathy Debrecen Dataset | Features extracted from images of eyes with and without diabetic retinopathy. | Features extracted and conditions diagnosed. | 1151 | Text | Klasifikace | 2014 | [371][372] | B. Antal et al. |
Diabetic Retinopathy Messidor Dataset | Methods to evaluate segmentation and indexing techniques in the field of retinal ophthalmology (MESSIDOR) | Features retinopathy grade and risk of macular edema | 1200 | Images, Text | Classification, Segmentation | 2008 | [373][374] | Messidor Project |
Liver Disorders Dataset | Data for people with liver disorders. | Seven biological features given for each patient. | 345 | Text | Klasifikace | 1990 | [375][376] | Bupa Medical Research Ltd. |
Thyroid Disease Dataset | 10 databases of thyroid disease patient data. | Žádný. | 7200 | Text | Klasifikace | 1987 | [377][378] | R. Quinlan |
Mesothelioma Dataset | Mesothelioma patient data. | Large number of features, including asbestos exposure, are given. | 324 | Text | Klasifikace | 2016 | [379][380] | A. Tanrikulu et al. |
Parkinson's Vision-Based Pose Estimation Dataset | 2D human pose estimates of Parkinson's patients performing a variety of tasks. | Camera shake has been removed from trajectories. | 134 | Text | Classification, regression | 2017 | [381][382][383] | M. Li et al. |
KEGG Metabolic Reaction Network (Undirected) Dataset | Network of metabolic pathways. A reaction network and a relation network jsou uvedeny. | Detailed features for each network node and pathway are given. | 65,554 | Text | Classification, clustering, regression | 2011 | [384] | M. Naeem et al. |
Modified Human Sperm Morphology Analysis Dataset (MHSMA) | Human sperm images from 235 patients with male factor infertility, labeled for normal or abnormal sperm acrosome, head, vacuole, and tail. | Cropped around single sperm head. Magnification normalized. Training, validation, and test set splits created. | 1,540 | .npy files | Klasifikace | 2019 | [385][386] | S. Javadi and S.A. Mirroshandel |
Zvíře
Dataset Name | Stručný popis | Předběžné zpracování | Instances | Formát | Default Task | Created (updated) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
Abalone Dataset | Physical measurements of Abalone. Weather patterns and location are also given. | Žádný. | 4177 | Text | Regrese | 1995 | [387] | Marine Research Laboratories – Taroona |
Zoo Dataset | Artificial dataset covering 7 classes of animals. | Animals are classed into 7 categories and features are given for each. | 101 | Text | Klasifikace | 1990 | [388] | R. Forsyth |
Demospongiae Dataset | Data about marine sponges. | 503 sponges in the Demosponge class are described by various features. | 503 | Text | Klasifikace | 2010 | [389] | E. Armengol et al. |
Splice-junction Gene Sequences Dataset | Primate splice-junction gene sequences (DNA) with associated imperfect domain theory. | Žádný. | 3190 | Text | Klasifikace | 1992 | [366] | G. Towell et al. |
Mice Protein Expression Dataset | Expression levels of 77 proteins measured in the cerebral cortex of mice. | Žádný. | 1080 | Text | Classification, Clustering | 2015 | [390][391] | C. Higuera et al. |
Rostlina
Dataset Name | Stručný popis | Předběžné zpracování | Instances | Formát | Default Task | Created (updated) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
Forest Fires Dataset | Forest fires and their properties. | 13 features of each fire are extracted. | 517 | Text | Regrese | 2008 | [392][393] | P. Cortez et al. |
Iris Dataset | Three types of iris plants are described by 4 different attributes. | Žádný. | 150 | Text | Klasifikace | 1936 | [394][395] | R. Fisher |
Plant Species Leaves Dataset | Sixteen samples of leaf each of one-hundred plant species. | Shape descriptor, fine-scale margin, and texture histograms are given. | 1600 | Text | Klasifikace | 2012 | [396][397] | J. Cope et al. |
Mushroom Dataset | Mushroom attributes and classification. | Many properties of each mushroom are given. | 8124 | Text | Klasifikace | 1987 | [398] | J. Schlimmer |
Soybean Dataset | Database of diseased soybean plants. | 35 features for each plant are given. Plants are classified into 19 categories. | 307 | Text | Klasifikace | 1988 | [399] | R. Michalski et al. |
Seeds Dataset | Measurements of geometrical properties of kernels belonging to three different varieties of wheat. | Žádný. | 210 | Text | Classification, clustering | 2012 | [400][401] | Charytanowicz et al. |
Covertype Dataset | Data for predicting forest cover type strictly from cartographic variables. | Many geographical features given. | 581,012 | Text | Klasifikace | 1998 | [402][403] | J. Blackard et al. |
Abscisic Acid Signaling Network Dataset | Data for a plant signaling network. Goal is to determine set of rules that governs the network. | Žádný. | 300 | Text | Causal-discovery | 2008 | [404] | J. Jenkens et al. |
Folio Dataset | 20 photos of leaves for each of 32 species. | Žádný. | 637 | Images, text | Classification, clustering | 2015 | [405][406] | T. Munisami et al. |
Oxford Flower Dataset | 17 category dataset of flowers. | Train/test splits, labeled images, | 1360 | Images, text | Klasifikace | 2006 | [138][407] | M-E Nilsback et al. |
Plant Seedlings Dataset | 12 category dataset of plant seedlings. | Labelled images, segmented images, | 5544 | snímky | Classification, detection | 2017 | [408] | Giselsson et al. |
Fruits 360 dataset | Database with images of 120 fruits and vegetables. | 100x100 pixels, White background. | 82213 | Images (jpg) | Klasifikace | 2017-2019 | [409][410] | Mihai Oltean, Horea Muresan |
Mikrob
Dataset Name | Stručný popis | Předběžné zpracování | Instances | Formát | Default Task | Created (updated) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
Ecoli Dataset | Protein localization sites. | Various features of the protein localizations sites are given. | 336 | Text | Klasifikace | 1996 | [411][412] | K. Nakai et al. |
MicroMass Dataset | Identification of microorganisms from mass-spectrometry data. | Various mass spectrometer features. | 931 | Text | Klasifikace | 2013 | [413][414] | P. Mahe et al. |
Yeast Dataset | Predictions of Cellular localization sites of proteins. | Eight features given per instance. | 1484 | Text | Klasifikace | 1996 | [415][416] | K. Nakai et al. |
Objev drog
Dataset Name | Stručný popis | Předběžné zpracování | Instances | Formát | Default Task | Created (updated) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
Tox21 Dataset | Prediction of outcome of biological assays. | Chemical descriptors of molecules are given. | 12707 | Text | Klasifikace | 2016 | [417] | A. Mayr et al. |
Anomaly data
Dataset Name | Stručný popis | Předběžné zpracování | Instances | Formát | Default Task | Created (updated) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
Numenta Anomaly Benchmark (NAB) | Data are ordered, timestamped, single-valued metrics. All data files contain anomalies, unless otherwise noted. | Žádný | 50+ files | Comma separated values | Detekce anomálií | 2016 (continually updated) | [418] | Numenta |
On the Evaluation of Unsupervised Outlier Detection: Measures, Datasets, and an Empirical Study | Most data files are adapted from UCI Machine Learning Repository data, some are collected from the literature. | treated for missing values, numerical attributes only, different percentages of anomalies, labels | 1000+ files | ARFF | Detekce anomálií | 2016 (possibly updated with new datasets and/or results) | Campos et al. |
Question Answering data
This section includes datasets that deals with structured data.
Dataset Name | Stručný popis | Předběžné zpracování | Instances | Formát | Default Task | Created (updated) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
DBpedia Neural Question Answering (DBNQA) Dataset | A large collection of Question to SPARQL specially design for Open Domain Neural Question Answering over DBpedia Knowledgebase. | This dataset contains a large collection of Open Neural SPARQL Templates and instances for training Neural SPARQL Machines; it was pre-processed by semi-automatic annotation tools as well as by three SPARQL experts. | 894,499 | Question-query pairs | Odpověď na otázku | 2018 | [420][421] | Hartmann, Soru, and Marx et al. |
Vietnamese Question Answering Dataset (UIT-ViQuAD) | A large collection of Vietnamese questions for evaluating MRC models. | This dataset comprises over 23,000 human-generated question-answer pairs based on 5,109 passages of 174 Vietnamese articles from Wikipedia. | 23,074 | Question-answer pairs | Odpověď na otázku | 2020 | [422] | Nguyen a kol. |
Vietnamese Multiple-Choice Machine Reading Comprehension Corpus(ViMMRC) | A collection of Vietnamese multiple-choice questions for evaluating MRC models. | This corpus includes 2,783 Vietnamese multiple-choice questions. | 2,783 | Question-answer pairs | Question Answering/Machine Reading Comprehension | 2020 | [423] | Nguyen a kol. |
Multivariate data
Datasets consisting of rows of observations and columns of attributes characterizing those observations. Typically used for regresní analýza or classification but other types of algorithms can also be used. This section includes datasets that do not fit in the above categories.
Finanční
Dataset Name | Stručný popis | Předběžné zpracování | Instances | Formát | Default Task | Created (updated) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
Dow Jones Index | Weekly data of stocks from the first and second quarters of 2011. | Calculated values included such as percentage change and a lags. | 750 | Comma separated values | Classification, regression, Časové řady | 2014 | [424][425] | M. Brown et al. |
Statlog (Australian Credit Approval) | Credit card applications either accepted or rejected and attributes about the application. | Attribute names are removed as well as identifying information. Factors have been relabeled. | 690 | Comma separated values | Klasifikace | 1987 | [426][427] | R. Quinlan |
eBay auction data | Auction data from various eBay.com objects over various length auctions | Contains all bids, bidderID, bid times, and opening prices. | ~ 550 | Text | Regression, classification | 2012 | [428][429] | G. Shmueli et al. |
Statlog (German Credit Data) | Binary credit classification into "good" or "bad" with many features | Various financial features of each person are given. | 690 | Text | Klasifikace | 1994 | [430] | H. Hofmann |
Bank Marketing Dataset | Data from a large marketing campaign carried out by a large bank . | Many attributes of the clients contacted are given. If the client subscribed to the bank is also given. | 45,211 | Text | Klasifikace | 2012 | [431][432] | S. Moro et al. |
Istanbul Stock Exchange Dataset | Several stock indexes tracked for almost two years. | Žádný. | 536 | Text | Classification, regression | 2013 | [433][434] | O. Akbilgic |
Default of Credit Card Clients | Credit default data for Taiwanese creditors. | Various features about each account are given. | 30,000 | Text | Klasifikace | 2016 | [435][436] | I. Yeh |
Počasí
Název datové sady | Stručný popis | Předběžné zpracování | Instance | Formát | Výchozí úkol | Vytvořeno (aktualizováno) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
Cloudová datová sada | Data o 1024 různých cloudech. | Extrahované obrazové prvky. | 1024 | Text | Klasifikace, shlukování | 1989 | [437] | P. Collard |
Datová sada El Nino | Oceánografické a povrchové meteorologické údaje získané ze série bójí rozmístěných po celém rovníkovém Pacifiku. | U každé bóje se měří 12 atributů počasí. | 178080 | Text | Regrese | 1999 | [438] | Pacific Marine Environmental Laboratory |
Datový soubor sítě pro pozorování skleníkových plynů | Časové řady koncentrací skleníkových plynů na 2921 buňkách sítě v Kalifornii vytvořené pomocí simulací počasí. | Žádný. | 2921 | Text | Regrese | 2015 | [439] | D. Lucas |
Atmosférický CO2 z nepřetržitých vzorků vzduchu na observatoři Mauna Loa | Kontinuální vzorky vzduchu na Havaji v USA. 44 let záznamů. | Žádný. | 44 let | Text | Regrese | 2001 | [440] | Observatoř Mauna Loa |
Datová sada ionosféry | Radarová data z ionosféry. Úkolem je zařadit do dobrých a špatných radarových výnosů. | Mnoho radarových funkcí uvedených. | 351 | Text | Klasifikace | 1989 | [378][441] | Univerzita Johna Hopkinse |
Datová sada pro detekci úrovně ozónu | Dva soubory dat na úrovni přízemního ozonu. | Mnoho funkcí, včetně povětrnostních podmínek v době měření. | 2536 | Text | Klasifikace | 2008 | [442][443] | K. Zhang a kol. |
Sčítání lidu
Název datové sady | Stručný popis | Předběžné zpracování | Instance | Formát | Výchozí úkol | Vytvořeno (aktualizováno) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
Sada dat pro dospělé | Údaje ze sčítání lidu z roku 1994 obsahující demografické rysy dospělých a jejich příjem. | Vyčištěno a anonymizováno. | 48,842 | Hodnoty oddělené čárkami | Klasifikace | 1996 | [444] | Úřad pro sčítání lidu Spojených států |
Sčítání lidu - příjem (KDD) | Vážené údaje ze sčítání lidu z let 1994 a 1995 Aktuální průzkumy populace. | Rozdělit na tréninkové a testovací sady | 299,285 | Hodnoty oddělené čárkami | Klasifikace | 2000 | [445][446] | Úřad pro sčítání lidu Spojených států |
Sčítací databáze IPUMS | Údaje ze sčítání lidu z oblastí Los Angeles a Long Beach. | Žádný | 256,932 | Text | Klasifikace, regrese | 1999 | [447] | IPUMS |
Údaje ze sčítání lidu USA z roku 1990 | Částečné údaje ze sčítání lidu z roku 1990 v USA. | Výsledky jsou randomizovány a jsou vybrány užitečné atributy. | 2,458,285 | Text | Klasifikace, regrese | 1990 | [448] | Úřad pro sčítání lidu Spojených států |
Tranzit
Název datové sady | Stručný popis | Předběžné zpracování | Instance | Formát | Výchozí úkol | Vytvořeno (aktualizováno) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
Datová sada pro sdílení kol | Hodinový a denní počet zapůjčení kol ve velkém městě. | Mnoho funkcí, včetně počasí, délky cesty atd., Je uvedeno. | 17,389 | Text | Regrese | 2013 | [449][450] | H. Fanaee-T |
Údaje o cestě taxíkem v New Yorku | Údaje o cestě pro žluté a zelené taxíky v New Yorku. | Poskytuje vyzvednutí a odložení míst, tarifů a dalších podrobností o cestách. | 6 let | Text | Klasifikace, shlukování | 2015 | [451] | Newyorská komise pro taxi a limuzíny |
Trajektorie taxi služby ECML PKDD | Trajektorie všech taxíků ve velkém městě. | Mnoho funkcí, včetně počátečních a koncových bodů. | 1,710,671 | Text | Shlukování, kauzální objev | 2015 | [452][453] | M. Ferreira a kol. |
Internet
Název datové sady | Stručný popis | Předběžné zpracování | Instance | Formát | Výchozí úkol | Vytvořeno (aktualizováno) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
Webové stránky z Common Crawl 2012 | Velká sbírka webových stránek a způsob jejich propojení pomocí hypertextových odkazů | Žádný. | 3,5B | Text | shlukování, klasifikace | 2013 | [454] | V. Granville |
Datová sada internetových reklam | Datová sada pro předpovídání, zda je daný obrázek reklamou či nikoli. | Funkce kódují geometrii reklam a frází vyskytujících se v adrese URL. | 3279 | Text | Klasifikace | 1998 | [455][456] | N. Kushmerick |
Datová sada o používání internetu | Obecné demografické údaje uživatelů internetu. | Žádný. | 10,104 | Text | Klasifikace, shlukování | 1999 | [457] | D. Cook |
Datová sada URL | 120 dní dat URL z velké konference. | Mnoho funkcí každé adresy URL je uvedeno. | 2,396,130 | Text | Klasifikace | 2009 | [458][459] | J. Ma |
Datová sada phishingových webů | Datová sada phishingových webů. | Mnoho funkcí každého webu je uvedeno. | 2456 | Text | Klasifikace | 2015 | [460] | R. Mustafa a kol. |
Online maloobchodní datová sada | Online transakce pro britského online prodejce. | Podrobnosti o každé dané transakci. | 541,909 | Text | Klasifikace, shlukování | 2015 | [461] | D. Chen |
Freebase Simple Topic Dump | Freebase je online snaha strukturovat veškeré lidské znalosti. | Témata z Freebase byla extrahována. | velký | Text | Klasifikace, shlukování | 2011 | [462][463] | Freebase |
Datová sada zemědělských reklam | Text zemědělských reklam z webových stránek. Je udělen binární souhlas nebo nesouhlas vlastníků obsahu. | Vypočítají se řídké vektory textových slov SVMlight v reklamách. | 4143 | Text | Klasifikace | 2011 | [464][465] | C. Masterharm a kol. |
Hry
Název datové sady | Stručný popis | Předběžné zpracování | Instance | Formát | Výchozí úkol | Vytvořeno (aktualizováno) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
Pokerová datová sada | 5 karetních karet ze standardního balíčku 52 karet. | Jsou uvedeny atributy každé kombinace, včetně pokerových kombinací tvořených kartami, které obsahuje. | 1,025,010 | Text | Regrese, klasifikace | 2007 | [466] | R. Cattral |
Datová sada Connect-4 | Obsahuje všechny legální 8vrstvé pozice ve hře connect-4, ve kterých žádný hráč ještě nevyhrál a ve kterých není vynucený další tah. | Žádný. | 67,557 | Text | Klasifikace | 1995 | [467] | J. Tromp |
Datová sada šachů (King-Rook vs. King) | Databáze koncovek pro White King a Rook proti Black King. | Žádný. | 28,056 | Text | Klasifikace | 1994 | [468][469] | M. Bain a kol. |
Datová sada šachů (King-Rook vs. King-Pawn) | Král + věž proti králi + pěšec na a7. | Žádný. | 3196 | Text | Klasifikace | 1989 | [470] | R. Holte |
Datová sada koncovky hry Tic-Tac-Toe | Binární klasifikace pro podmínky výhry v tic-tac-toe. | Žádný. | 958 | Text | Klasifikace | 1991 | [471] | D. Aha |
Jiné vícerozměrné
Název datové sady | Stručný popis | Předběžné zpracování | Instance | Formát | Výchozí úkol | Vytvořeno (aktualizováno) | Odkaz | Tvůrce |
---|---|---|---|---|---|---|---|---|
Soubor údajů o bydlení | Medián domovských hodnot Bostonu s přidruženými atributy domů a sousedství. | Žádný. | 506 | Text | Regrese | 1993 | [472] | D. Harrison a kol. |
Getty Vocabularies | strukturovaná terminologie pro umění a další hmotnou kulturu, archivní materiály, vizuální náhrady a bibliografické materiály. | Žádný. | velký | Text | Klasifikace | 2015 | [473] | Getty Center |
Yahoo! Uživatel přední stránky Dnes Klikněte na Log | Uživatelský protokol kliknutí na zpravodajské články zobrazené na kartě Doporučené v modulu Today na Yahoo! Přední strana. | Spojená analýza s bilineárním modelem. | 45 811 883 návštěv uživatelů | Text | Regrese, shlukování | 2009 | [474][475] | Chu a kol. |
Britské oceánografické datové centrum | Biologické, chemické, fyzikální a geofyzikální údaje pro oceány. Sledovány 22K proměnné. | Rozličný. | 22K proměnné, mnoho případů | Text | Regrese, shlukování | 2015 | [476] | Britské oceánografické datové centrum |
Datová sada záznamů o hlasování v Kongresu | Údaje o hlasování pro všechny zástupce USA v 16 číslech. | Kromě nezpracovaných údajů o hlasování jsou k dispozici různé další funkce. | 435 | Text | Klasifikace | 1987 | [477] | J. Schlimmer |
Vstupní datová sada doporučení Chicaga | Záznam interakcí uživatelů se systémem doporučení Entree Chicago. | Podrobnosti o použití aplikace jednotlivými uživateli jsou zaznamenány podrobně. | 50,672 | Text | Regrese, doporučení | 2000 | [478] | R. Burke |
Benchmark pojišťovací společnosti (COIL 2000) | Informace o zákaznících pojišťovny. | Mnoho funkcí každého zákazníka a služeb, které využívá. | 9,000 | Text | Regrese, klasifikace | 2000 | [479][480] | P. van der Putten |
Datová sada školky | Údaje od žadatelů do mateřských škol. | Zahrnuty jsou údaje o rodině žadatele a různých dalších faktorech. | 12,960 | Text | Klasifikace | 1997 | [481][482] | V. Rajkovič a kol. |
Univerzitní datová sada | Údaje popisující připisované velkému počtu univerzit. | Žádný. | 285 | Text | Shlukování, klasifikace | 1988 | [483] | Sounders a kol. |
Datová sada střediska služeb krevní transfuze | Data ze střediska služeb transfúze krve. Poskytuje údaje o návratnosti, frekvenci atd. Dárců | Žádný. | 748 | Text | Klasifikace | 2008 | [484][485] | Já |
Zaznamenejte datovou sadu srovnávacích vazeb | Velká datová sada záznamů. Úkolem je propojit příslušné záznamy dohromady. | Procedura blokování byla použita k výběru pouze určitých párů záznamů. | 5,749,132 | Text | Klasifikace | 2011 | [486][487] | Univerzita v Mohuči |
Datová sada Nomao | Nomao shromažďuje údaje o místech z mnoha různých zdrojů. Úkolem je detekovat položky, které popisují stejné místo. | Duplikáty označeny. | 34,465 | Text | Klasifikace | 2012 | [488][489] | Nomao Labs |
Datová sada filmu | Data pro 10 000 filmů. | Pro každý film je uvedeno několik funkcí. | 10,000 | Text | Shlukování, klasifikace | 1999 | [490] | G. Wiederhold |
Otevřete datovou sadu University Learning Analytics | Informace o studentech a jejich interakcích s virtuálním výukovým prostředím. | Žádný. | ~ 30,000 | Text | Klasifikace, shlukování, regrese | 2015 | [491][492] | J. Kuzilek a kol. |
Záznamy z mobilních telefonů | Telekomunikační činnost a interakce | Agregace podle buněk geografické mřížky a každých 15 minut. | velký | Text | Klasifikace, shlukování, regrese | 2015 | [493] | G. Barlacchi a kol. |
Upravená úložiště datových sad
Vzhledem k tomu, že datové sady přicházejí v nesčetných formátech a jejich použití může být někdy obtížné, bylo věnováno značné úsilí úpravě a standardizaci formátu datových sad, aby se usnadnilo jejich použití pro výzkum strojového učení.
- OpenML:[494] Webová platforma s Python, R, Java a dalšími API pro stahování stovek datových sad strojového učení, vyhodnocování algoritmů na datových sadách a srovnávání výkonu algoritmu s desítkami dalších algoritmů.
- PMLB:[495] Velké, upravené úložiště srovnávacích datových sad pro vyhodnocení supervizovaných algoritmů strojového učení. Poskytuje datové sady klasifikace a regrese ve standardizovaném formátu, které jsou přístupné prostřednictvím Python API.
- Metatext NLP: https://metatext.io/datasets webové úložiště udržované komunitou, obsahující téměř 1000 srovnávacích datových sad, a počítání. Poskytuje mnoho úkolů od klasifikace po QA a různé jazyky od angličtiny, portugalštiny po arabštinu.
Viz také
- Porovnání softwaru pro hluboké učení
- Seznam nástrojů pro ruční anotaci obrázků
- Seznam biologických databází
Reference
- ^ Wissner-Gross, A. „Datové sady přes algoritmy“. Edge.com. Citováno 8. ledna 2016.
- ^ Weiss, G. M .; Provost, F. (1. září 2003). „Učení, když jsou tréninková data nákladná: Vliv rozdělení třídy na indukci stromu“. Journal of Artificial Intelligence Research. AI Access Foundation. 19: 315–354. doi:10.1613 / jair.1199. ISSN 1076-9757. S2CID 2344521.
- ^ Turney, Peter (2000). "Druhy nákladů v učení induktivního konceptu". arXiv:cs / 0212034.
- ^ Abney, Steven (17. září 2007). Semisupervised Learning for Computational Linguistics. CRC Press. ISBN 978-1-4200-1080-0.
- ^ Žliobaitė, Indrė; Bifet, Albert; Pfahringer, Bernhard; Holmes, Geoff (2011). "Aktivní učení s vývojem streamovaných dat". Strojové učení a zjišťování znalostí v databázích. Berlin, Heidelberg: Springer Berlin Heidelberg. str. 597–612. doi:10.1007/978-3-642-23808-6_39. ISBN 978-3-642-23807-9. ISSN 0302-9743.
- ^ Zafeiriou, S .; Kollias, D .; Nicolaou, M.A.; Papaioannou, A .; Zhao, G .; Kotsia, I. (2017). „Aff-Wild: Valence and Arousal in-the-wild Challenge“ (PDF). Workshopy o počítačovém vidění a rozpoznávání vzorů (CVPRW), 2017: 1980–1987. doi:10.1109 / CVPRW.2017.248. ISBN 978-1-5386-0733-6. S2CID 3107614.
- ^ Kollias, D .; Tzirakis, P .; Nicolaou, M.A.; Papaioannou, A .; Zhao, G .; Schuller, B .; Kotsia, I .; Zafeiriou, S. (2019). „Deep Affect Prediction in-the-wild: Aff-Wild Database and Challenge, Deep Architectures, and Beyond“. International Journal of Computer Vision (IJCV), 2019. 127 (6–7): 907–929. doi:10.1007 / s11263-019-01158-4. S2CID 13679040.
- ^ Kollias, D .; Zafeiriou, S. (2019). „Výraz, afekt, rozpoznávání akčních jednotek: Aff-wild2, multi-task learning a arcface“ (PDF). British Machine Vision Conference (BMVC), 2019. arXiv:1910.04855.
- ^ Kollias, D .; Schulc, A .; Hajiyev, E .; Zafeiriou, S. (2020). „Analýza afektivního chování v první soutěži abaw 2020“. Mezinárodní konference IEEE o automatickém rozpoznávání tváře a gest (FG), 2020. arXiv:2001.11409.
- ^ Phillips, P. Jonathon; et al. (1998). Msgstr "Databáze FERET a postup vyhodnocení pro algoritmy rozpoznávání tváří". Výpočet obrazu a vidění. 16 (5): 295–306. doi:10.1016 / s0262-8856 (97) 00070-x.
- ^ Wiskott, Laurenz; et al. (1997). . Transakce IEEE na analýze vzorů a strojové inteligenci. 19 (7): 775–779. CiteSeerX 10.1.1.44.2321. doi:10.1109/34.598235.
- ^ Livingstone, Steven R.; Russo, Frank A. (2018). „Ryersonova audiovizuální databáze emoční řeči a písně (RAVDESS): dynamická, multimodální sada výrazů obličeje a hlasu v severoamerické angličtině“. PLOS ONE. 13 (5): e0196391. Bibcode:2018PLoSO..1396391L. doi:10.1371 / journal.pone.0196391. PMC 5955500. PMID 29768426.
- ^ Livingstone, Steven R.; Russo, Frank A. (2018). "Emoce". Ryersonova audiovizuální databáze emoční řeči a písně (RAVDESS). doi:10,5281 / zenodo.1188976.
- ^ Grgic, Mislav; Delac, Kresimir; Grgic, Sonja (2011). "SCface - kamery kamer čelí databázi". Multimediální nástroje a aplikace. 51 (3): 863–879. doi:10.1007 / s11042-009-0417-2. S2CID 207218990.
- ^ Wallace, Roy a kol. "Modelování variability mezi relacemi a analýza společných faktorů pro ověřování obličeje." Biometrics (IJCB), 2011 International Joint Conference on. IEEE, 2011.
- ^ Georghiades, A. „Databáze tváří Yale“. Centrum pro výpočetní vizi a řízení na Yale University, http://CVC.yale.edu/Projects/Yalefaces/Yalefa. 2: 1997. Externí odkaz v
| deník =
(Pomoc) - ^ Nguyen, Duy; et al. (2006). "Detekce obličeje v reálném čase a extrakce rtů pomocí polních programovatelných hradlových polí". Transakce IEEE na systémech, člověku a kybernetice - část B: Kybernetika. 36 (4): 902–912. CiteSeerX 10.1.1.156.9848. doi:10.1109 / tsmcb.2005.862728. PMID 16903373. S2CID 7334355.
- ^ Kanade, Takeo, Jeffrey F. Cohn a Yingli Tian. "Komplexní databáze pro analýzu výrazu obličeje." Automatic Face and Gesture Recognition, 2000. Sborník. Čtvrtá mezinárodní konference IEEE dne. IEEE, 2000.
- ^ Zeng, Zhihong; et al. (2009). "Průzkum metod rozpoznávání afektů: zvukové, vizuální a spontánní projevy". Transakce IEEE na analýze vzorů a strojové inteligenci. 31 (1): 39–58. CiteSeerX 10.1.1.144.217. doi:10.1109 / tpami.2008.52. PMID 19029545.
- ^ Lyons, Michael; Kamachi, Miyuki; Gyoba, Jiro (1998). "Obrázky výrazu obličeje". Databáze japonských výrazů obličeje (JAFFE). doi:10,5281 / zenodo.3451524.
- ^ Lyons, Michael; Akamatsu, Shigeru; Kamachi, Miyuki; Gyoba, Jiro "Kódování mimiky pomocí Gaborových vlnek." Automatic Face and Gesture Recognition, 1998. Sborník. Třetí mezinárodní konference IEEE dne. IEEE, 1998.
- ^ Ng, Hong-Wei a Stefan Winkler. "Přístup k čištění datových sad velkých obličejů založený na datech." Image Processing (ICIP), 2014 IEEE International Conference on. IEEE, 2014.
- ^ RoyChowdhury, Aruni; Lin, Tsung-Yu; Maji, Subhransu; Learned-Miller, Erik (2015). "Rozpoznávání tváří od jednoho k více s bilineárními CNN". arXiv:1506.01342 [cs.CV ].
- ^ Jesorsky, Oliver, Klaus J. Kirchberg a Robert W. Frischholz. „Robustní detekce obličeje pomocí vzdálenosti hausdorff.“ Audiometrické a biometrické ověřování osob. Springer Berlin Heidelberg, 2001.
- ^ Huang, Gary B. a kol. Označené tváře ve volné přírodě: Databáze pro studium rozpoznávání tváří v neomezeném prostředí. Sv. 1. Č. 2. Technická zpráva 07-49, University of Massachusetts, Amherst, 2007.
- ^ Bhatt, Rajen B. a kol. "Efektivní segmentace oblasti kůže pomocí modelu fuzzy rozhodovacího stromu s nízkou složitostí." Konference v Indii (INDICON), 2009 IEEE. IEEE, 2009.
- ^ Lingala, Mounika; et al. (2014). "Fuzzy logická detekce barev: Modré oblasti na melanomových dermoskopických obrázcích". Počítačové lékařské zobrazování a grafika. 38 (5): 403–410. doi:10.1016 / j.compmedimag.2014.03.007. PMC 4287461. PMID 24786720.
- ^ Maes, Chris a kol. "Detekce prvků na 3D plochách obličeje pro normalizaci a rozpoznání pózu." Biometrie: Teorie aplikací a systémů (BTAS), 2010 Čtvrtá mezinárodní konference IEEE o. IEEE, 2010.
- ^ Savran, Arman a kol. "Bosporská databáze pro 3D analýzu obličeje." Biometrie a správa identit. Springer Berlin Heidelberg, 2008. 47–56.
- ^ Heseltine, Thomas, Nick Pears a Jim Austin. "Trojrozměrné rozpoznávání tváře: přístup eigensurface." Zpracování obrazu, 2004. ICIP'04. Mezinárodní konference 2004. Sv. 2. IEEE, 2004.
- ^ Ge, Yun; et al. (2011). "3D nové modelování vzorků tváře pro rozpoznávání tváře". Journal of Multimedia. 6 (5): 467–475. CiteSeerX 10.1.1.461.9710. doi:10,4304 / jmm. 6.5.467-475.
- ^ Wang, Yueming; Liu, Jianzhuang; Tang, Xiaoou (2010). "Robustní 3D rozpoznávání tváře pomocí lokálního zvýšení rozdílu tvarů". Transakce IEEE na analýze vzorů a strojové inteligenci. 32 (10): 1858–1870. CiteSeerX 10.1.1.471.2424. doi:10.1109 / tpami.2009.200. PMID 20724762. S2CID 15263913.
- ^ Zhong, Cheng, Zhenan Sun a Tieniu Tan. "Robustní 3D rozpoznávání tváře pomocí naučeného vizuálního číselníku." Počítačové vidění a rozpoznávání vzorů, 2007. CVPR'07. Konference IEEE dne. IEEE, 2007.
- ^ Zhao, G .; Huang, X .; Taini, M .; Li, S. Z .; Pietikäinen, M. (2011). „Rozpoznávání výrazu obličeje z videí v blízké infračervené oblasti“ (PDF). Výpočet obrazu a vidění. 29 (9): 607–619. doi:10.1016 / j.imavis.2011.07.002.
- ^ Soyel, Hamit a Hasan Demirel. "Rozpoznávání výrazu obličeje pomocí vzdáleností 3D obličejových prvků." Analýza a rozpoznávání obrazu. Springer Berlin Heidelberg, 2007. 831–838.
- ^ Bowyer, Kevin W .; Chang, Kyong; Flynn, Patrick (2006). „Průzkum přístupů a výzev ve 3D a multimodálním 3D + 2D rozpoznávání tváří“. Počítačové vidění a porozumění obrazu. 101 (1): 1–15. CiteSeerX 10.1.1.134.8784. doi:10.1016 / j.cviu.2005.05.005.
- ^ Tan, Xiaoyang; Triggs, Bill (2010). "Vylepšené sady funkcí místní textury pro rozpoznávání tváře za obtížných světelných podmínek". Transakce IEEE na zpracování obrazu. 19 (6): 1635–1650. Bibcode:2010ITIP ... 19.1635T. CiteSeerX 10.1.1.105.3355. doi:10.1109 / tip.2010.2042645. PMID 20172829. S2CID 4943234.
- ^ Mousavi, Mir Hashem, Karim Faez a Amin Asghari. "Trojrozměrné rozpoznávání tváře pomocí klasifikátoru SVM." Počítačová a informační věda, 2008. ICIS 08. Sedmá mezinárodní konference IEEE / ACIS o. IEEE, 2008.
- ^ Amberg, Brian, Reinhard Knothe a Thomas Vetter. "Vyjádření neměnného 3D rozpoznávání tváře pomocí morphable modelu." Automatické rozpoznávání obličeje a gest, 2008. FG'08. 8. mezinárodní konference IEEE dne. IEEE, 2008.
- ^ İrfanoğlu, M. O., Berk Gökberk a Lale Akarun. "3D tvarové rozpoznávání tváře pomocí automaticky registrovaných povrchů obličeje." Pattern Recognition, 2004. ICPR 2004. Proceedings of the 17.th International Conference on. Sv. 4. IEEE, 2004.
- ^ Beumier, Charles; Acheroy, Marc (2001). Msgstr "Ověření obličeje z vodítek 3D a úrovní šedé". Písmena pro rozpoznávání vzorů. 22 (12): 1321–1329. doi:10.1016 / s0167-8655 (01) 00077-0.
- ^ Afifi, Mahmoud; Abdelhamed, Abdelrahman (13. června 2017). „AFIF4: Deep Gender Classification based on AdaBoost-based Fusion of Isolated Facial Features and Foggy Faces“. arXiv:1706.04277 [cs.CV ].
- ^ "SoF dataset". sites.google.com. Citováno 18. listopadu 2017.
- ^ „IMDB-WIKI“. data.vision.ee.ethz.ch. Citováno 13. března 2018.
- ^ Patron-Perez, A .; Marszalek, M .; Reid, I .; Zisserman, A. (2012). "Strukturované učení lidských interakcí v televizních pořadech". Transakce IEEE na analýze vzorů a strojové inteligenci. 34 (12): 2441–2453. doi:10.1109 / tpami.2012.24. PMID 23079467. S2CID 6060568.
- ^ Ofli, F., Chaudhry, R., Kurillo, G., Vidal, R. a Bajcsy, R. (leden 2013). Berkeley MHAD: Komplexní multimodální databáze lidské činnosti. In Applications of Computer Vision (WACV), 2013 IEEE Workshop on (str. 53–60). IEEE.
- ^ Jiang, Y. G. a kol. „Výzva THUMOS: Rozpoznávání akcí s velkým počtem tříd.“ Workshop ICCV o rozpoznávání akcí s velkým počtem tříd, http://crcv.ucf.edu/ICCV13-Action-Workshop. 2013.
- ^ Simonyan, Karen a Andrew Zisserman. "Dvouproudové konvoluční sítě pro rozpoznávání akcí ve videích." Pokroky v systémech zpracování neurálních informací. 2014.
- ^ Stoian, Andrei; Ferecatu, Marin; Benois-Pineau, Jenny; Crucianu, Michel (2016). "Rychlá lokalizace akce ve velkoplošných videoarchivech". Transakce IEEE na obvodech a systémech pro videotechniku. 26 (10): 1917–1930. doi:10.1109 / TCSVT.2015.2475835. S2CID 31537462.
- ^ Krišna, Ranjay; Zhu, Yuke; Groth, Oliver; Johnson, Justin; Hata, Kenji; Kravitz, Joshua; Chen, Stephanie; Kalantidis, Yannis; Li, Li-Jia; Shamma, David A; Bernstein, Michael S; Fei-Fei, Li (2017). „Visual Genome: Connecting Language and Vision Using Crowdsourced Dense Image Annotations“. International Journal of Computer Vision. 123: 32–73. arXiv:1602.07332. doi:10.1007 / s11263-016-0981-7. S2CID 4492210.
- ^ Karayev, S., et al. "3D objektová datová sada na úrovni kategorie: uvedení Kinectu do provozu." Sborník mezinárodní konference IEEE o seminářích o počítačovém vidění. 2011.
- ^ Tighe, Joseph a Svetlana Lazebnik. "Superparsing: škálovatelné neparametrické zpracování obrazu se superpixely." Počítačové vidění - ECCV 2010. Springer Berlin Heidelberg, 2010. 352–365.
- ^ Arbelaez, P .; Maire, M; Fowlkes, C; Malik, J (květen 2011). "Detekce kontur a hierarchická segmentace obrazu" (PDF). Transakce IEEE na analýze vzorů a strojové inteligenci. 33 (5): 898–916. doi:10.1109 / tpami.2010.161. PMID 20733228. S2CID 206764694. Citováno 27. února 2016.
- ^ Lin, Tsung-Yi a kol. "Microsoft coco: Společné objekty v kontextu." Počítačové vidění - ECCV 2014. Springer International Publishing, 2014. 740–755.
- ^ Russakovsky, Olga; et al. (2015). "Imagenet výzva velkého rozsahu vizuálního rozpoznávání". International Journal of Computer Vision. 115 (3): 211–252. arXiv:1409.0575. doi:10.1007 / s11263-015-0816-r. hdl:1721.1/104944. S2CID 2930547.
- ^ Xiao, Jianxiong a kol. „Sluneční databáze: Rozpoznávání scén ve velkém měřítku od opatství po zoo.“ Počítačové vidění a rozpoznávání vzorů (CVPR), konference IEEE 2010. IEEE, 2010.
- ^ Donahue, Jeff; Jia, Yangqing; Vinyals, Oriol; Hoffman, Judy; Zhang, Ning; Tzeng, Eric; Darrell, Trevor (2013). „DeCAF: Hluboká konvoluční aktivační funkce pro obecné vizuální rozpoznávání“. arXiv:1310.1531 [cs.CV ].
- ^ Deng, Jia a kol. "Imagenet: rozsáhlá hierarchická databáze obrázků."Počítačové vidění a rozpoznávání vzorů, 2009. CVPR 2009. Konference IEEE dne. IEEE, 2009.
- ^ A b C Krizhevsky, Alex, Ilya Sutskever a Geoffrey E. Hinton. "Klasifikace Imagenet s hlubokými konvolučními neuronovými sítěmi." Pokroky v systémech zpracování neurálních informací. 2012.
- ^ Russakovsky, Olga; Deng, Jia; Su, Hao; Krause, Jonathan; Satheesh, Sanjeev; et al. (11. dubna 2015). "Výzva ImageNet pro rozsáhlé vizuální rozpoznávání". International Journal of Computer Vision. 115 (3): 211–252. arXiv:1409.0575. doi:10.1007 / s11263-015-0816-r. hdl:1721.1/104944. S2CID 2930547.
- ^ Ivan Krasin, Tom Duerig, Neil Alldrin, Andreas Veit, Sami Abu-El-Haija, Serge Belongie, David Cai, Zheyun Feng, Vittorio Ferrari, Victor Gomes, Abhinav Gupta, Dhyanesh Narayanan, Chen Sun, Gal Chechik, Kevin Murphy. „OpenImages: Veřejný datový soubor pro rozsáhlou klasifikaci více značek a více tříd obrázků, 2017. Dostupné z https://github.com/openimages."
- ^ Vyas, Apoorv a kol. "Detekce komerčních bloků ve vysílání zpravodajských videí." Sborník indické konference o grafice a zpracování obrazu v roce 2014. ACM, 2014.
- ^ Hauptmann, Alexander G. a Michael J. Witbrock. "Segmentace příběhů a detekce reklam ve vysílání zpravodajského videa." Výzkum a technologické pokroky v digitálních knihovnách, 1998. ADL 98. Sborník. IEEE International Forum on. IEEE, 1998.
- ^ Tung, Anthony KH, Xin Xu a Beng Chin Ooi. "Curler: hledání a vizualizace nelineárních korelačních klastrů." Sborník příspěvků z mezinárodní konference ACM SIGMOD 2005 o správě dat. ACM, 2005.
- ^ Jarrett, Kevin a kol. "Jaká je nejlepší vícestupňová architektura pro rozpoznávání objektů?." Počítačové vidění, 2009 IEEE 12th International Conference on. IEEE, 2009.
- ^ Lazebnik, Svetlana, Cordelia Schmid a Jean Ponce. "Kromě funkcí: Prostorové přizpůsobení pyramid pro rozpoznávání kategorií přírodních scén."Počítačové vidění a rozpoznávání vzorů, 2006 IEEE Computer Society Conference on. Sv. 2. IEEE, 2006.
- ^ Griffin, G., A. Holub a P. Perona. Datová sada kategorie objektů Caltech-256 California Inst. Technol., Tech. Rep. 7694, 2007 [online]. Dostupný: http://authors.library.caltech.edu/7694, 2007.
- ^ Baeza-Yates, Ricardo a Berthier Ribeiro-Neto. Moderní vyhledávání informací. Sv. 463. New York: ACM press, 1999.
- ^ Fu, Xiping a kol. "NOKMeans: Neortogonální K-znamená hašování." Počítačové vidění - ACCV 2014. Springer International Publishing, 2014. 162–177.
- ^ Heitz, Geremy; et al. (2009). "Tvarová lokalizace objektu pro deskriptivní klasifikaci". International Journal of Computer Vision. 84 (1): 40–62. CiteSeerX 10.1.1.142.280. doi:10.1007 / s11263-009-0228-r. S2CID 646320.
- ^ M. Cordts, M. Omran, S. Ramos, T. Scharwächter, M. Enzweiler, R. Benenson, U. Franke, S. Roth a B. Schiele, "Datová sada Městské scenérie "Na CVPR Workshopu o budoucnosti datových sad ve vizi, 2015.
- ^ Everingham, Mark; et al. (2010). „Výzva tříd vizuálních objektů (VOC) Pascal“. International Journal of Computer Vision. 88 (2): 303–338. doi:10.1007 / s11263-009-0275-4. S2CID 4246903.
- ^ Felzenszwalb, Pedro F .; et al. (2010). "Detekce objektů s diskriminačně trénovanými modely založenými na částech". Transakce IEEE na analýze vzorů a strojové inteligenci. 32 (9): 1627–1645. CiteSeerX 10.1.1.153.2745. doi:10.1109 / tpami.2009.167. PMID 20634557. S2CID 3198903.
- ^ A b Gong, Yunchao a Svetlana Lazebnik. „Iterativní kvantizace: prokrustovský přístup k učení binárních kódů.“ Počítačové vidění a rozpoznávání vzorů (CVPR), konference IEEE 2011. IEEE, 2011.
- ^ „Datová sada CINIC-10“. Luke N. Darlow, Elliot J. Crowley, Antreas Antoniou, Amos J. Storkey (2018) CINIC-10 není ImageNet ani CIFAR-10. 9. října 2018. Citováno 13. listopadu 2018.
- ^ fashion-mnist: Databáze módních produktů podobná MNIST. Srovnávací test: point_right, Zalando Research, 7. října 2017, vyvoláno 7. října 2017
- ^ "datová sada notMNIST". Strojové učení atd. 8. září 2011. Citováno 13. října 2017.
- ^ Houben, Sebastian a kol. "Detekce dopravních značek na obrázcích z reálného světa: Německá referenční hodnota pro detekci dopravních značek." Neural Networks (IJCNN), Mezinárodní společná konference 2013. IEEE, 2013.
- ^ Mathias, Mayeul a kol. "Rozpoznávání dopravních značek - Jak daleko jsme od řešení?." Neural Networks (IJCNN), Mezinárodní společná konference 2013. IEEE, 2013.
- ^ Geiger, Andreas, Philip Lenz a Raquel Urtasun. "Jsme připraveni na autonomní řízení? srovnávací sada kitti vision." Počítačové vidění a rozpoznávání vzorů (CVPR), 2012 IEEE Conference on. IEEE, 2012.
- ^ Sturm, Jürgen a kol. "Měřítko pro hodnocení systémů RGB-D SLAM." Inteligentní roboti a systémy (IROS), 2012 Mezinárodní konference IEEE / RSJ o. IEEE, 2012.
- ^ Chaladze, G., Kalatozishvili, L. (2017).Datová sada Linnaeus 5. Chaladze.com. Citováno 13. listopadu 2017, z http://chaladze.com/l5/
- ^ Kragh, Mikkel F .; et al. (2017). „FieldSAFE - datová sada pro detekci překážek v zemědělství“. Senzory. 17 (11): 2579. arXiv:1709.03526. Bibcode:2017arXiv170903526F. doi:10,3390 / s17112579. PMC 5713196. PMID 29120383.
- ^ Afifi, Mahmoud (12. listopadu 2017). "Rozpoznávání pohlaví a biometrická identifikace pomocí velkého souboru dat ručních obrázků". arXiv:1711.04322 [cs.CV ].
- ^ Lomonaco, Vincenzo; Maltoni, Davide (18. října 2017). „CORe50: nová datová sada a měřítko pro kontinuální rozpoznávání objektů“. arXiv:1705.03550 [cs.CV ].
- ^ Ona, Qi; Feng, Fan; Hao, Xinyue; Yang, Qihan; Lan, Chuanlin; Lomonaco, Vincenzo; Shi, Xuesong; Wang, Zhengwei; Guo, Yao; Zhang, Yimin; Qiao, Fei; Chan, Rosa H.M. (15. listopadu 2019). „OpenLORIS-Object: Robotická datová sada vize a měřítko pro celoživotní hluboké učení“. arXiv:1911.06487v2 [cs.CV ].
- ^ Morozov, Alexej; Sushkova, Olga (13. června 2019). "Sada dat THz a termálního videa". Vývoj přístupu multiagentního logického programování k analýze lidského chování ve vícekanálovém video dohledu. Moskva: JSEM RAS. Citováno 19. července 2019.
- ^ Morozov, Alexej; Sushkova, Olga; Kershner, Ivan; Polupanov, Alexander (9. července 2019). „Vývoj metody terahertzového inteligentního video dohledu na základě sémantické fúze terahertzů a 3D video obrazů“ (PDF). CEUR. 2391: paper19. Citováno 19. července 2019.
- ^ Botta, M., A. Giordana a L. Saitta. "Naučit se definice fuzzy konceptu." Fuzzy Systems, 1993., Druhá mezinárodní konference IEEE dne. IEEE, 1993.
- ^ Frey, Peter W .; Slate, David J. (1991). „Rozpoznávání dopisů pomocí adaptivních klasifikátorů v holandském stylu“. Strojové učení. 6 (2): 161–182. doi:10.1007 / bf00114162.
- ^ Peltonen, Jaakko; Klami, Arto; Kaski, Samuel (2004). "Vylepšené učení Riemannovských metrik pro průzkumnou analýzu". Neuronové sítě. 17 (8): 1087–1100. CiteSeerX 10.1.1.59.4865. doi:10.1016 / j.neunet.2004.06.008. PMID 15555853.
- ^ A b Liu, Cheng-Lin; Yin, Fei; Wang, Da-Han; Wang, Qiu-Feng (leden 2013). "Online a offline ručně psané čínské rozpoznávání znaků: srovnávací test v nových databázích". Rozpoznávání vzorů. 46 (1): 155–162. doi:10.1016 / j.patcog.2012.06.021.
- ^ Wang, D .; Liu, C .; Yu, J .; Zhou, X. (2009). "CASIA-OLHWDB1: Databáze online ručně psaných čínských znaků". 10. mezinárodní konference o analýze a uznávání dokumentů 2009: 1206–1210. doi:10.1109 / ICDAR.2009.163. ISBN 978-1-4244-4500-4. S2CID 5705532.
- ^ Williams, Ben H., Marc Toussaint a Amos J. Storkey. Extrakce pohybových primitiv z přirozených dat rukopisu. Springer Berlin Heidelberg, 2006.
- ^ Meier, Franziska a kol. "Segmentace pohybu pomocí primitivní knihovny."Inteligentní roboti a systémy (IROS), 2011, mezinárodní konference IEEE / RSJ. IEEE, 2011.
- ^ T. E. de Campos, B. R. Babu a M. Varma. Rozpoznávání znaků v přirozených obrazech. v Sborník mezinárodní konference o teorii a aplikacích počítačového vidění (VISAPP), Lisabon, Portugalsko, Únor 2009
- ^ Llorens, David a kol. "Databáze UJIpenchars: databáze pera izolovaných ručně psaných znaků." LREC. 2008.
- ^ Calderara, Simone; Prati, Andrea; Cucchiara, Rita (2011). "Směsi von voní distribucí pro analýzu tvaru trajektorie lidí". Transakce IEEE na obvodech a systémech pro videotechniku. 21 (4): 457–471. doi:10.1109 / tcsvt.2011.2125550. S2CID 1427766.
- ^ Guyon, Isabelle a kol. "Analýza výsledků výzvy výběru funkcí NIP 2003." Pokroky v systémech zpracování neurálních informací. 2004.
- ^ Lake, B. M .; Salakhutdinov, R .; Tenenbaum, J. B. (11. prosince 2015). „Učení konceptu na lidské úrovni prostřednictvím indukce pravděpodobnostního programu“. Věda. 350 (6266): 1332–1338. Bibcode:2015Sci ... 350.1332L. doi:10.1126 / science.aab3050. ISSN 0036-8075. PMID 26659050.
- ^ Lake, Brenden (9. listopadu 2019), Sada dat Omniglot pro jednorázové učení, vyvoláno 10. listopadu 2019
- ^ LeCun, Yann; et al. (1998). "Učení založené na přechodu aplikované na rozpoznávání dokumentů". Sborník IEEE. 86 (11): 2278–2324. CiteSeerX 10.1.1.32.9552. doi:10.1109/5.726791.
- ^ Kussul, Ernst; Baidyk, Tatiana (2004). Msgstr "Vylepšená metoda rozpoznávání ručně psaných číslic testovaná v databázi MNIST". Výpočet obrazu a vidění. 22 (12): 971–981. doi:10.1016 / j.imavis.2004.03.008.
- ^ Xu, Lei; Krzyżak, Adam; Suen, Ching Y. (1992). "Metody kombinování více klasifikátorů a jejich aplikací pro rozpoznávání rukopisu". Transakce IEEE na systémech, člověku a kybernetice. 22 (3): 418–435. doi:10.1109/21.155943. hdl:10338.dmlcz / 135217.
- ^ Alimoglu, Fevzi a kol. "Kombinace více klasifikátorů pro rozpoznávání ručně psaných číslic perem." (1996).
- ^ Tang, E. Ke; et al. (2005). Msgstr "Snížení lineární dimenze pomocí LDA váženého podle relevance". Rozpoznávání vzorů. 38 (4): 485–493. doi:10.1016 / j.patcog.2004.09.005.
- ^ Hong, Yi a kol. "Naučte se směs metrik řídkých vzdáleností pro klasifikaci a redukci rozměrů." Počítačové vidění (ICCV), 2011, mezinárodní konference IEEE. IEEE, 2011.
- ^ Thoma, Martin (2017). "Datová sada HASYv2". arXiv:1701.08380 [cs.CV ].
- ^ Karki, Manohar; Liu, Qun; DiBiano, Robert; Basu, Saikat; Mukhopadhyay, Supratik (20. června 2018). "Rekonstrukce a klasifikace na úrovni pixelů pro hlučné ručně psané bengálské postavy". arXiv:1806.08037 [cs.CV ].
- ^ Liu, Qun; Collier, Edward; Mukhopadhyay, Supratik (2019), "PCGAN-CHAR: Progresivně vycvičený klasifikátor Generativní kontradiktorní sítě pro klasifikaci hlučných ručně psaných znaků Bangla", Digitální knihovny na křižovatce digitálních informací pro budoucnost, Springer International Publishing, s. 3–15, arXiv:1908.08987, doi:10.1007/978-3-030-34058-2_1, ISBN 978-3-030-34057-5, S2CID 201665955
- ^ Yuan, Jiangye; Gleason, Shaun S .; Cheriyadat, Anil M. (2013). Msgstr "Systematické srovnávání segmentace leteckých snímků". Geovědy IEEE a dopisy o dálkovém průzkumu Země. 10 (6): 1527–1531. Bibcode:2013IGRSL..10.1527Y. doi:10.1109 / lgrs.2013.2261453. S2CID 629629.
- ^ Vatsavai, Ranga Raju. "Klasifikace obrazů na základě objektů: stav techniky a výpočetní výzvy." Sborník z 2. mezinárodního semináře ACM SIGSPATIAL o analýze velkých geoprostorových dat. ACM, 2013.
- ^ Butenuth, Matthias a kol. "Integrace simulace chodců, sledování a detekce událostí pro analýzu davu." Semináře o počítačovém vidění (workshopy ICCV), mezinárodní konference IEEE 2011. IEEE, 2011.
- ^ Fradi, Hajer a Jean-Luc Dugelay. "Nízkoúrovňová analýza davu pomocí rámcové normalizované funkce pro počítání lidí." Information Forensics and Security (WIFS), 2012 IEEE International Workshop on. IEEE, 2012.
- ^ Johnson, Brian Alan, Ryutaro Tateishi a Nguyen Thanh Hoan. "Hybridní přístup k ostření a víceúrovňová objektová analýza obrazu pro mapování nemocných borovic a dubů." Mezinárodní deník dálkového průzkumu Země34.20 (2013): 6969–6982.
- ^ Mohd Pozi, Muhammad Syafiq; Sulaiman, Md Nasir; Mustapha, Norwati; Perumal, Thinagaran (2015). „Nový klasifikační model pro nevyvážený datový soubor třídy pomocí genetického programování a podpory vektorových strojů: Případová studie pro klasifikaci nemocí vadnutí“. Dopisy pro dálkový průzkum Země. 6 (7): 568–577. doi:10.1080 / 2150704X.2015.1062159. S2CID 58788630.
- ^ Gallego, A.-J .; Pertusa, A .; Gil, P. "Automatická klasifikace lodí z optických leteckých snímků s konvolučními neuronovými sítěmi." Dálkový průzkum Země. 2018; 10(4):511.
- ^ Gallego, A.-J .; Pertusa, A .; Gil, P. „MAritime SATellite Imagery dataset“ [online]. Dostupný: https://www.iuii.ua.es/datasets/masati/, 2018.
- ^ Johnson, Brian; Tateishi, Ryutaro; Xie, Zhixiao (2012). "Použití geograficky vážených proměnných pro klasifikaci obrázků". Dopisy pro dálkový průzkum Země. 3 (6): 491–499. doi:10.1080/01431161.2011.629637. S2CID 122543681.
- ^ Chatterjee, Sankhadeep a kol. "Klasifikace typu lesa: Hybridní přístup založený na modelu NN-GA." Návrh informačních systémů a inteligentní aplikace. Springer India, 2016. 227-236.
- ^ Diegert, Carl. "Kombinatorická metoda pro trasování objektů pomocí sémantiky jejich tvaru." Workshop Applied Imagery Pattern Recognition Workshop (AIPR), IEEE 39th, 2010. IEEE, 2010.
- ^ Razakarivony, Sebastien a Frédéric Jurie. "Detekce malých cílů kombinující rozdělovače popředí a pozadí." Mezinárodní konference IAPR o aplikacích strojového vidění. 2013.
- ^ „SpaceNet“. prozkoumat.digitalglobe.com. Citováno 13. března 2018.
- ^ Etten, Adam Van (5. ledna 2017). „Začínáme s daty SpaceNet“. DownLinQ. Citováno 13. března 2018.
- ^ Vakalopoulou, M .; Bus, N .; Karantzalosa, K .; Paragios, N. (červenec 2017). Integrace hraničních / hraničních priorit s klasifikačními skóre pro detekci budov ve datech s velmi vysokým rozlišením. 2017 IEEE International Geoscience and Remote Sensing Symposium (IGARSS). str. 3309–3312. doi:10.1109 / IGARSS.2017.8127705. ISBN 978-1-5090-4951-6. S2CID 8297433.
- ^ Yang, Yi; Newsam, Shawn (2010). Bag-of-visual-slova a prostorové rozšíření pro klasifikaci využití půdy. Sborník z 18. mezinárodní konference SIGSPATIAL o pokroku v geografických informačních systémech - GIS '10. New York, New York, USA: ACM Press. doi:10.1145/1869790.1869829. ISBN 9781450304283. S2CID 993769.
- ^ A b Basu, Saikat; Ganguly, Sangram; Mukhopadhyay, Supratik; DiBiano, Robert; Karki, Manohar; Nemani, Ramakrishna (3. listopadu 2015). DeepSat: učební rámec pro satelitní snímky. ACM. str. 37. doi:10.1145/2820783.2820816. ISBN 9781450339674. S2CID 4387134.
- ^ A b Liu, Qun; Basu, Saikat; Ganguly, Sangram; Mukhopadhyay, Supratik; DiBiano, Robert; Karki, Manohar; Nemani, Ramakrishna (21. listopadu 2019). "DeepSat V2: funkce rozšířené konvoluční neurální sítě pro klasifikaci satelitních snímků". Dopisy pro dálkový průzkum Země. 11 (2): 156–165. arXiv:1911.07747. doi:10.1080 / 2150704x.2019.1693071. ISSN 2150-704X. S2CID 208138097.
- ^ Mills, Kyle; Tamblyn, Isaac (16. května 2018), Velká grafenová datová sada, Národní rada pro výzkum v Kanadě, doi:10.4224 / c8sc04578j.data
- ^ Mills, Kyle; Klíč, Michael; Tamblyn, Isaac (16. května 2018). "Kvantová simulace". Kvantové simulace elektronu v jamce dvourozměrného potenciálu. Kanadská národní rada pro výzkum. doi:10,4224 / PhysRevA.96.042113.data.
- ^ Rohrbach, M .; Amin, S .; Andriluka, M .; Schiele, B. (2012). Databáze pro jemnou detekci aktivity vaření. IEEE. doi:10.1109 / cvpr.2012.6247801. ISBN 978-1-4673-1228-8.
- ^ Kuehne, Hilde, Ali Arslan a Thomas Serre. "Jazyk akcí: Obnova syntaxe a sémantiky lidských činností zaměřených na cíl."Sborník z konference IEEE o počítačovém vidění a rozpoznávání vzorů. 2014.
- ^ Sviatoslav, Voloshynovskiy a kol. "Směrem k reprodukovatelnosti vede k ověřování na základě fyzických nekolonovatelných funkcí: optická sada mikrostruktury forenzního ověřování (FAMOS). "Proc. Sborník příspěvků z mezinárodního semináře IEEE o forenzní informací a bezpečnosti. 2012.
- ^ Olga, Taran a Shideh, Rezaeifar a kol. "PharmaPack: mobilní jemné rozpoznávání farmaceutických balíčků."Proc. Evropská konference o zpracování signálu (EUSIPCO). 2017.
- ^ Khosla, Aditya a kol. "Nová datová sada pro jemnou kategorizaci obrázků: psi ze Stanfordu."Proc. Workshop CVPR o jemně odstupňované vizuální kategorizaci (FGVC). 2011.
- ^ A b Parkhi, Omkar M. a kol. "Kočky a psi."Počítačové vidění a rozpoznávání vzorů (CVPR), 2012 IEEE Conference on. IEEE, 2012.
- ^ Biggs, Benjamin a kol. "Kdo nechal psy venku? 3D rekonstrukce zvířat s maximalizací očekávání ve smyčce.."Proc. ECCV. 2020.
- ^ A b Razavian, Ali a kol. "Funkce CNN jsou již hotové: ohromující základní linie pro rozpoznávání." Sborník z konference IEEE o počítačových viděních a seminářích pro rozpoznávání vzorů. 2014.
- ^ Ortega, Michael; et al. (1998). Msgstr "Podpora hodnocených booleovských dotazů na podobnost v MARS". Transakce IEEE na znalostní a datové inženýrství. 10 (6): 905–925. CiteSeerX 10.1.1.36.6079. doi:10.1109/69.738357.
- ^ On, Xuming, Richard S. Zemel a Miguel Á. Carreira-Perpiñán. "Podmíněná náhodná pole s vícenásobným škálováním pro označování obrázků." Počítačové vidění a rozpoznávání vzorů, 2004. CVPR 2004. Sborník konferencí počítačové společnosti IEEE z roku 2004. Sv. 2. IEEE, 2004.
- ^ Deneke, Tewodros a kol. "Predikce času překódování videa pro proaktivní vyvažování zátěže "Multimedia and Expo (ICME), 2014 IEEE International Conference on. IEEE, 2014.
- ^ Ting-Hao (Kenneth) Huang, Francis Ferraro, Nasrin Mostafazadeh, Ishan Misra, Aishwarya Agrawal, Jacob Devlin, Ross Girshick, Xiaodong He, Pushmeet Kohli, Dhruv Batra, C. Lawrence Zitnick, Devi Parikh, Lucy Vanderwende, Michel Galley, Margaret Mitchell (13. dubna 2016). "Vizuální vyprávění". arXiv:1604.03968 [cs.CL ].CS1 maint: více jmen: seznam autorů (odkaz)
- ^ Wah, Catherine a kol. "Datová sada caltech-ucsd birds-200-2011." (2011).
- ^ Duan, Kun a kol. "Objevování lokalizovaných atributů pro jemnozrnné rozpoznávání." Počítačové vidění a rozpoznávání vzorů (CVPR), 2012 IEEE Conference on. IEEE, 2012.
- ^ „Datová sada YouTube-8M“. research.google.com. Citováno 1. října 2016.
- ^ Abu-El-Haija, Sami; Kothari, Nisarg; Lee, Joonseok; Natsev, Paul; Toderici, George; Varadarajan, Balakrishnan; Vijayanarasimhan, Sudheendra (27. září 2016). „YouTube-8M: měřítko klasifikace videa ve velkém měřítku“. arXiv:1609.08675 [cs.CV ].
- ^ „Datová sada YFCC100M“. mmcommons.org. Yahoo-ICSI-LLNL. Citováno 1. června 2017.
- ^ Bart Thomee; David A Shamma; Gerald Friedland; Benjamin Elizalde; Karl Ni; Douglas Polsko; Damian Borth; Li-Jia Li (25. dubna 2016). „Yfcc100m: Nová data v multimediálním výzkumu“. Komunikace ACM. 59 (2): 64–73. arXiv:1503.01817. doi:10.1145/2812802. S2CID 207230134.
- ^ Y. Baveye, E. Dellandrea, C. Chamaret a L. Chen, "LIRIS-ACCEDE: Video databáze pro analýzu afektivního obsahu, „v IEEE Transaction on Affective Computing, 2015.
- ^ Y. Baveye, E. Dellandrea, C. Chamaret a L. Chen, "Hluboké učení vs. metody jádra: Výkon pro predikci emocí ve videích, “v roce 2015 Konference asociace Humaine Association on Affective Computing and Intelligent Interaction (ACII), 2015.
- ^ M. Sjöberg, Y. Baveye, H. Wang, V. L. Quang, B. Ionescu, E. Dellandréa, M. Schedl, C.-H. Demarty a L. Chen, “Středověký afektivní dopad úlohy filmu 2015, “na workshopu MediaEval 2015, 2015.
- ^ S. Johnson a M. Everingham, “Modely seskupené pozice a nelineární vzhled pro odhad lidské pozice ", ve sborníku z 21. britské konference o strojovém vidění (BMVC2010)
- ^ S. Johnson a M. Everingham, “Naučte se efektivní odhad lidské pozice z nepřesné anotace ", Ve sborníku z konference IEEE o počítačovém vidění a rozpoznávání vzorů (CVPR2011)
- ^ Afifi, Mahmoud; Hussain, Khaled F. (2 November 2017). "The Achievement of Higher Flexibility in Multiple Choice-based Tests Using Image Classification Techniques". arXiv:1711.00972 [cs.CV ].
- ^ "MCQ Dataset". sites.google.com. Citováno 18. listopadu 2017.
- ^ Taj-Eddin, I. A. T. F.; Afifi, M.; Korashy, M.; Hamdy, D.; Nasser, M.; Derbaz, S. (July 2016). A new compression technique for surveillance videos: Evaluation using new dataset. 2016 Sixth International Conference on Digital Information and Communication Technology and Its Applications (DICTAP). str. 159–164. doi:10.1109/DICTAP.2016.7544020. ISBN 978-1-4673-9609-7. S2CID 8698850.
- ^ Tabak, Michael A.; Norouzzadeh, Mohammad S.; Wolfson, David W.; Sweeney, Steven J.; Vercauteren, Kurt C.; Snow, Nathan P.; Halseth, Joseph M.; Di Salvo, Paul A.; Lewis, Jesse S.; White, Michael D.; Teton, Ben; Beasley, James C.; Schlichting, Peter E.; Boughton, Raoul K.; Wight, Bethany; Newkirk, Eric S.; Ivan, Jacob S .; Odell, Eric A.; Brook, Ryan K.; Lukacs, Paul M.; Moeller, Anna K.; Mandeville, Elizabeth G.; Clune, Jeff; Miller, Ryan S.; Photopoulou, Theoni (2018). "Machine learning to classify animal species in camera trap images: Applications in ecology". Metody v ekologii a evoluci. 10 (4): 585–590. doi:10.1111/2041-210X.13120. ISSN 2041-210X.
- ^ Taj-Eddin, Islam A. T. F.; Afifi, Mahmoud; Korashy, Mostafa; Ahmed, Ali H.; Ng, Yoke Cheng; Hernandez, Evelyng; Abdel-Latif, Salma M. (November 2017). "Can we see photosynthesis? Magnifying the tiny color changes of plant green leaves using Eulerian video magnification". Journal of Electronic Imaging. 26 (6): 060501. arXiv:1706.03867. Bibcode:2017JEI....26f0501T. doi:10.1117/1.jei.26.6.060501. ISSN 1017-9909. S2CID 12367169.
- ^ McAuley, Julian, et al. "Image-based recommendations on styles and substitutes." Proceedings of the 38th international ACM SIGIR conference on Research and development in information retrieval. ACM, 2015
- ^ Ganesan, Kavita; Zhai, Chengxiang (2012). "Opinion-based entity ranking". Načítání informací. 15 (2): 116–150. doi:10.1007/s10791-011-9174-8. hdl:2142/15252. S2CID 16258727.
- ^ Lv, Yuanhua, Dimitrios Lymberopoulos, and Qiang Wu. "An exploration of ranking heuristics in mobile local search." Proceedings of the 35th international ACM SIGIR conference on Research and development in information retrieval. ACM, 2012.
- ^ Harper, F. Maxwell; Konstan, Joseph A. (2015). "The MovieLens Datasets: History and Context". Transakce ACM na interaktivních inteligentních systémech. 5 (4): 19. doi:10.1145/2827872. S2CID 16619709.
- ^ Koenigstein, Noam, Gideon Dror, and Yehuda Koren. "Yahoo! music recommendations: modeling music ratings with temporal dynamics and item taxonomy." Proceedings of the fifth ACM conference on Recommender systems. ACM, 2011.
- ^ McFee, Brian, et al. "The million song dataset challenge." Proceedings of the 21st international conference companion on World Wide Web. ACM, 2012.
- ^ Bohanec, Marko, and Vladislav Rajkovic. "Knowledge acquisition and explanation for multi-attribute decision making." 8th Intl Workshop on Expert Systems and their Applications. 1988.
- ^ Tan, Peter J., and David L. Dowe. "MML inference of decision graphs with multi-way joins." Australian Joint Conference on Artificial Intelligence. 2002.
- ^ "Quantifying comedy on YouTube: why the number of o's in your LOL matter". Metatext NLP Database. Citováno 26. října 2020.
- ^ Kim, Byung Joo (2012). "A Classifier for Big Data". Convergence and Hybrid Information Technology. Komunikace v počítačové a informační vědě. 310. pp. 505–512. doi:10.1007/978-3-642-32692-9_63. ISBN 978-3-642-32691-2.
- ^ Pérezgonzález, Jose D.; Gilbey, Andrew (2011). "Predicting Skytrax airport rankings from customer reviews". Journal of Airport Management. 5 (4): 335–339.
- ^ Loh, Wei-Yin, and Yu-Shan Shih. "Split selection methods for classification trees." Statistica sinica(1997): 815–840.
- ^ Lim, Tjen-Sien; Loh, Wei-Yin; Shih, Yu-Shan (2000). "A comparison of prediction accuracy, complexity, and training time of thirty-three old and new classification algorithms". Strojové učení. 40 (3): 203–228. doi:10.1023/a:1007608224229. S2CID 17030953.
- ^ Kiet Van Nguyen, Vu Duc Nguyen, Phu X. V. Nguyen, Tham T. H. Truong, Ngan Luu-Thuy Nguyen. "UIT-VSFC: Vietnamese Students’ Feedback Corpus for Sentiment Analysis }}
- ^ Vong Anh Ho, Duong Huynh-Cong Nguyen, Danh Hoang Nguyen, Linh Thi-Van Pham, Duc-Vu Nguyen, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen. "Emotion Recognition for Vietnamese Social Media Text }}
- ^ Dermouche, Mohamed; Velcin, Julien; Khouas, Leila; Loudcher, Sabine (2014). A Joint Model for Topic-Sentiment Evolution over Time. IEEE. doi:10.1109/icdm.2014.82. ISBN 978-1-4799-4302-9.
- ^ Rose, Tony; Stevenson, Mark; Whitehead, Miles (2002). "The Reuters Corpus Volume 1-from Yesterday's News to Tomorrow's Language Resources" (PDF). LREC. 2. S2CID 9239414.
- ^ Amini, Massih R.; Usunier, Nicolas; Goutte, Cyril (2009). "Learning from Multiple Partially Observed Views - an Application to Multilingual Text Categorization". Pokroky v systémech zpracování neurálních informací: 28–36.
- ^ Liu, Ming; et al. (2015). "VRCA: a clustering algorithm for massive amount of texts". Proceedings of the 24th International Conference on Artificial Intelligence. Tisk AAAI.
- ^ Al-Harbi, S; Almuhareb, A; Al-Thubaity, A; Khorsheed, M. S.; Al-Rajeh, A (2008). "Automatic Arabic Text Classification". Proceedings of the 9th International Conference on the Statistical Analysis of Textual Data, Lyon, France.
- ^ "Relationship and Entity Extraction Evaluation Dataset: Dstl/re3d". 17. prosince 2018.
- ^ "The Examiner - SpamClickBait Catalogue".
- ^ "A Million News Headlines".
- ^ "One Week of Global News Feeds".
- ^ Kulkarni, Rohit (2018), Reuters News-Wire Archive, Harvard Dataverse, doi:10.7910/DVN/XDB74W
- ^ "IrishTimes - the Waxy-Wany News".
- ^ "News Headlines Dataset For Sarcasm Detection". kaggle.com. Citováno 27. dubna 2019.
- ^ Klimt, Bryan, and Yiming Yang. "Introducing the Enron Corpus." CEAS. 2004.
- ^ Kossinets, Gueorgi, Jon Kleinberg, and Duncan Watts. "The structure of information pathways in a social communication network." Proceedings of the 14th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2008.
- ^ Androutsopoulos, Ion; Koutsias, John; Chandrinos, Konstantinos V.; Paliouras, George; Spyropoulos, Constantine D. (2000). "An evaluation of Naive Bayesian anti-spam filtering". In Potamias, G.; Moustakis, V.; van Someren, M. (eds.). Proceedings of the Workshop on Machine Learning in the New Information Age. 11th European Conference on Machine Learning, Barcelona, Spain. 11. str. 9–17. arXiv:cs/0006013. Bibcode:2000cs........6013A.
- ^ Bratko, Andrej; et al. (2006). "Spam filtering using statistical data compression models" (PDF). The Journal of Machine Learning Research. 7: 2673–2698.
- ^ Almeida, Tiago A., José María G. Hidalgo, and Akebo Yamakami. "Contributions to the study of SMS spam filtering: new collection and results."Proceedings of the 11th ACM symposium on Document engineering. ACM, 2011.
- ^ Delany; Jane, Sarah; Buckley, Mark; Greene, Derek (2012). "SMS spam filtering: methods and data". Expertní systémy s aplikacemi. 39 (10): 9899–9908. doi:10.1016/j.eswa.2012.02.053.
- ^ Joachims, Thorsten. A Probabilistic Analysis of the Rocchio Algorithm with TFIDF for Text Categorization. No. CMU-CS-96-118. Carnegie-mellon univ pittsburgh pa dept of computer science, 1996.
- ^ Dimitrakakis, Christos, and Samy Bengio. Online Policy Adaptation for Ensemble Algorithms. No. EPFL-REPORT-82788. IDIAP, 2002.
- ^ Dooms, S. et al. "Movietweetings: a movie rating dataset collected from twitter, 2013. Available from https://github.com/sidooms/MovieTweetings."
- ^ RoyChowdhury, Aruni; Lin, Tsung-Yu; Maji, Subhransu; Learned-Miller, Erik (2017). "Twitter100k: A Real-world Dataset for Weakly Supervised Cross-Media Retrieval". arXiv:1703.06618 [cs.CV ].
- ^ "huyt16/Twitter100k". GitHub. Citováno 26. března 2018.
- ^ Go, Alec; Bhayani, Richa; Huang, Lei (2009). "Twitter sentiment classification using distant supervision". CS224N Project Report, Stanford. 1: 12.
- ^ Chikersal, Prerna, Soujanya Poria, and Erik Cambria. "SeNTU: sentiment analysis of tweets by combining a rule-based classifier with supervised learning." Proceedings of the International Workshop on Semantic Evaluation, SemEval. 2015.
- ^ Zafarani, Reza, and Huan Liu. "Social computing data repository at ASU." School of Computing, Informatics and Decision Systems Engineering, Arizona State University (2009).
- ^ Bisgin, Halil, Nitin Agarwal, and Xiaowei Xu. "Investigating homophily in online social networks." Web Intelligence and Intelligent Agent Technology (WI-IAT), 2010 IEEE/WIC/ACM International Conference on. Sv. 1. IEEE, 2010.
- ^ McAuley, Julian J.; Leskovec, Jure. "Learning to Discover Social Circles in Ego Networks". NIPS. 2012: 2012.
- ^ Šubelj, Lovro; Fiala, Dalibor; Bajec, Marko (2014). "Network-based statistical comparison of citation topology of bibliographic databases". Vědecké zprávy. 4 (6496): 6496. arXiv:1502.05061. Bibcode:2014NatSR...4E6496S. doi:10.1038/srep06496. PMC 4178292. PMID 25263231.
- ^ Abdulla, N., et al. "Arabic sentiment analysis: Corpus-based and lexicon-based." Proceedings of the IEEE conference on Applied Electrical Engineering and Computing Technologies (AEECT). 2013.
- ^ Abooraig, Raddad, et al. "On the automatic categorization of Arabic articles based on their political orientation." Third International Conference on Informatics Engineering and Information Science (ICIEIS2014). 2014.
- ^ Kawala, François, et al. "Prédictions d'activité dans les réseaux sociaux en ligne." 4ième conférence sur les modèles et l'analyse des réseaux: Approches mathématiques et informatiques. 2013.
- ^ Sabharwal, Ashish; Samulowitz, Horst; Tesauro, Gerald (2015). "Selecting Near-Optimal Learners via Incremental Data Allocation". arXiv:1601.00024 [cs.LG ].
- ^ Xu a kol. "SemEval-2015 Task 1: Paraphrase and Semantic Similarity in Twitter (PIT) " Proceedings of the 9th International Workshop on Semantic Evaluation. 2015.
- ^ Xu a kol. "Extracting Lexically Divergent Paraphrases from Twitter " Transactions of the Association for Computational (TACL). 2014.
- ^ Middleton, Stuart E; Middleton, Lee; Modafferi, Stefano (2014). "Real-Time Crisis Mapping of Natural Disasters Using Social Media" (PDF). Inteligentní systémy IEEE. 29 (2): 9–17. doi:10.1109/MIS.2013.126. S2CID 15139204.
- ^ "geoparsepy". 2016. Python PyPI library
- ^ Forsyth, E., Lin, J., & Martell, C. (2008, June 25). The NPS Chat Corpus. Citováno z http://faculty.nps.edu/cmartell/NPSChat.htm
- ^ Alessandro Sordoni, Michel Galley, Michael Auli, Chris Brockett, Yangfeng Ji, Meg Mitchell, Jian-Yun Nie, Jianfeng Gao, and Bill Dolan, A Neural Network Approach to Context-Sensitive Generation of Conversational Responses, Conference of the North American Chapter of the Association for Computational Linguistics – Human Language Technologies (NAACL-HLT 2015), June 2015.
- ^ Shaoul, C. & Westbury C. (2013) A reduced redundancy USENET corpus (2005-2011) Edmonton, AB: University of Alberta (downloaded from http://www.psych.ualberta.ca/~westburylab/downloads/usenetcorpus.download.html )
- ^ KAN, M. (2011, January). NUS Short Message Service (SMS) Corpus. Citováno z http://www.comp.nus.edu.sg/entrepreneurship/innovation/osr/corpus/
- ^ Stuck_In_the_Matrix. (2015, July 3). I have every publicly available Reddit comment for research. ~ 1.7 billion comments @ 250 GB compressed. Any interest in this? [Original post]. Zpráva zveřejněna na https://www.reddit.com/r/datasets/comments/3bxlg7/i_have_every_publicly_available_reddit_comment/
- ^ Ryan Lowe, Nissan Pow, Iulian V. Serban and Joelle Pineau, "The Ubuntu Dialogue Corpus: A Large Dataset for Research in Unstructure Multi-Turn Dialogue Systems ", SIGDial 2015.
- ^ K. Kowsari, D. E. Brown, M. Heidarysafa, K. Jafari Meimandi, M. S. Gerber and L. E. Barnes, "HDLTex: Hierarchical Deep Learning for Text Classification", 2017 16th IEEE International Conference on Machine Learning and Applications (ICMLA), pp. 364-371. doi: 10.1109/ICMLA.2017.0-134
- ^ K. Kowsari, D. E. Brown, M. Heidarysafa, K. Jafari Meimandi, M. S. Gerber and L. E. Barnes, "Web of Science Dataset", doi:10.17632/9rw3vkcfy4.6
- ^ Galgani, Filippo, Paul Compton, and Achim Hoffmann. "Combining different summarization techniques for legal text." Proceedings of the Workshop on Innovative Hybrid Approaches to the Processing of Textual Data. Association for Computational Linguistics, 2012.
- ^ Nagwani, N. K. (2015). "Summarizing large text collection using topic modeling and clustering based on MapReduce framework". Journal of Big Data. 2 (1): 1–18. doi:10.1186/s40537-015-0020-5.
- ^ Schler, Jonathan; et al. (2006). "Effects of Age and Gender on Blogging" (PDF). AAAI Spring Symposium: Computational Approaches to Analyzing Weblogs. 6.
- ^ Anand, Pranav, et al. "Believe Me-We Can Do This! Annotating Persuasive Acts in Blog Text."Computational Models of Natural Argument. 2011.
- ^ Traud, Amanda L., Peter J. Mucha, and Mason A. Porter. "Social structure of Facebook networks." Physica A: Statistická mechanika a její aplikace391.16 (2012): 4165–4180.
- ^ Richard, Emile; Savalle, Pierre-Andre; Vayatis, Nicolas (2012). "Estimation of Simultaneously Sparse and Low Rank Matrices". arXiv:1206.6474 [cs.DS ].
- ^ Richardson, Matthew; Burges, Christopher JC; Renshaw, Erin (2013). "MCTest: A Challenge Dataset for the Open-Domain Machine Comprehension of Text". EMNLP. 1.
- ^ Weston, Jason; Bordes, Antoine; Chopra, Sumit; Rush, Alexander M.; Bart van Merriënboer; Joulin, Armand; Mikolov, Tomas (2015). "Towards AI-Complete Question Answering: A Set of Prerequisite Toy Tasks". arXiv:1502.05698 [cs.AI ].
- ^ Marcus, Mitchell P.; Ann Marcinkiewicz, Mary; Santorini, Beatrice (1993). "Building a large annotated corpus of English: The Penn Treebank". Výpočetní lingvistika. 19 (2): 313–330.
- ^ Collins, Michael (2003). "Head-driven statistical models for natural language parsing". Výpočetní lingvistika. 29 (4): 589–637. doi:10.1162/089120103322753356.
- ^ Guyon, Isabelle, et al., eds. Feature extraction: foundations and applications. Sv. 207. Springer, 2008.
- ^ Lin, Yuri, et al. "Syntactic annotations for the google books ngram corpus." Proceedings of the ACL 2012 system demonstrations. Association for Computational Linguistics, 2012.
- ^ Krishnamoorthy, Niveda; et al. (2013). "Generating Natural-Language Video Descriptions Using Text-Mined Knowledge". AAAI. 1.
- ^ Luyckx, Kim, and Walter Daelemans. "Personae: a Corpus for Author and Personality Prediction from Text." LREC. 2008.
- ^ Solorio, Thamar, Ragib Hasan, and Mainul Mizan. "A case study of sockpuppet detection in wikipedia." Workshop on Language Analysis in Social Media (LASM) at NAACL HLT. 2013.
- ^ Ciarelli, Patrick Marques, and Elias Oliveira. "Agglomeration and elimination of terms for dimensionality reduction." Intelligent Systems Design and Applications, 2009. ISDA'09. Ninth International Conference on. IEEE, 2009.
- ^ Zhou, Mingyuan, Oscar Hernan Madrid Padilla, and James G. Scott. "Priors for random count matrices derived from a family of negative binomial processes." Journal of the American Statistical Association just-accepted (2015): 00–00.
- ^ Kotzias, Dimitrios, et al. "From group to individual labels using deep features." Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2015.
- ^ Ning, Yue; Muthiah, Sathappan; Rangwala, Huzefa; Ramakrishnan, Naren (2016). "Modeling Precursors for Event Forecasting via Nested Multi-Instance Learning". arXiv:1602.08033 [CSI ].
- ^ Buza, Krisztian. "Feedback prediction for blogs."Data analysis, machine learning and knowledge discovery. Springer International Publishing, 2014. 145–152.
- ^ Soysal, Ömer M (2015). "Association rule mining with mostly associated sequential patterns". Expertní systémy s aplikacemi. 42 (5): 2582–2592. doi:10.1016/j.eswa.2014.10.049.
- ^ Bowman, Samuel, et al. "A large annotated corpus for learning natural language inference." Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing (EMNLP). ACL, 2015.
- ^ "DSL Corpus Collection". ttg.uni-saarland.de. Citováno 22. září 2017.
- ^ "Urban Dictionary Words and Definitions".
- ^ H. Elsahar, P. Vougiouklis, A. Remaci, C. Gravier, J. Hare, F. Laforest, E. Simperl, "T-REx: A Large Scale Alignment of Natural Language with Knowledge Base Triples ", Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC-2018).
- ^ Wang, A., Singh, A., Michael, J., Hill, F., Levy, O., & Bowman, S. R. (2018). Glue: A multi-task benchmark and analysis platform for natural language understanding. arXiv preprint arXiv:1804.07461.
- ^ "Computers Are Learning to Read—But They're Still Not So Smart". Kabelové. Citováno 29. prosince 2019.
- ^ Quan, Hoang Lam; Quang, Duy Le; Van Kiet, Nguyen; Ngan, Luu-Thuy Nguyen. "UIT-ViIC: A Dataset for the First Evaluation on Vietnamese Image Captioning".
- ^ To, Quoc Huy; Nguyen, Van Kiet; Nguyen, Luu Thuy Ngan; Nguyen, Gia Tuan Anh. "Gender Prediction Based on Vietnamese Names with Machine Learning Techniques" (PDF).
- ^ M. Versteegh, R. Thiollière, T. Schatz, X.-N. Cao, X. Anguera, A. Jansen, and E. Dupoux (2015). "The Zero Resource Speech Challenge 2015," in INTERSPEECH-2015.
- ^ M. Versteegh, X. Anguera, A. Jansen, and E. Dupoux, (2016). "The Zero Resource Speech Challenge 2015: Proposed Approaches and Results," in SLTU-2016.
- ^ Sakar, Betul Erdogdu; et al. (2013). "Collection and analysis of a Parkinson speech dataset with multiple types of sound recordings". IEEE Journal of Biomedical and Health Informatics. 17 (4): 828–834. doi:10.1109/jbhi.2013.2245674. PMID 25055311. S2CID 15491516.
- ^ Zhao, Shunan, et al. "Automatic detection of expressed emotion in Parkinson's disease." Acoustics, Speech and Signal Processing (ICASSP), 2014 IEEE International Conference on. IEEE, 2014.
- ^ Used in: Hammami, Nacereddine, and Mouldi Bedda. "Improved tree model for Arabic speech recognition." Computer Science and Information Technology (ICCSIT), 2010 3rd IEEE International Conference on. Sv. 5. IEEE, 2010.
- ^ Maaten, Laurens. "Learning discriminative fisher kernels." Proceedings of the 28th International Conference on Machine Learning (ICML-11). 2011.
- ^ Cole, Ronald, and Mark Fanty. "Spoken letter recognition." Proc. Third DARPA Speech and Natural Language Workshop. 1990.
- ^ Chapelle, Olivier; Sindhwani, Vikas; Keerthi, Sathiya S. (2008). "Optimization techniques for semi-supervised support vector machines" (PDF). The Journal of Machine Learning Research. 9: 203–233.
- ^ Kudo, Mineichi; Toyama, Jun; Shimbo, Masaru (1999). "Multidimensional curve classification using passing-through regions". Písmena pro rozpoznávání vzorů. 20 (11): 1103–1111. CiteSeerX 10.1.1.46.2515. doi:10.1016/s0167-8655(99)00077-x.
- ^ Jaeger, Herbert; et al. (2007). "Optimization and applications of echo state networks with leaky-integrator neurons". Neuronové sítě. 20 (3): 335–352. doi:10.1016/j.neunet.2007.04.016. PMID 17517495.
- ^ Tsanas, Athanasios; et al. (2010). "Accurate telemonitoring of Parkinson's disease progression by noninvasive speech tests". Transakce IEEE na biomedicínském inženýrství (Vložený rukopis). 57 (4): 884–893. doi:10.1109/tbme.2009.2036000. PMID 19932995. S2CID 7382779.
- ^ Clifford, Gari D.; Clifton, David (2012). "Wireless technology in disease management and medicine". Roční přehled medicíny. 63: 479–492. doi:10.1146/annurev-med-051210-114650. PMID 22053737.
- ^ Zue, Victor; Seneff, Stephanie; Glass, James (1990). "Speech database development at MIT: TIMIT and beyond". Řečová komunikace. 9 (4): 351–356. doi:10.1016/0167-6393(90)90010-7.
- ^ Kapadia, Sadik, Valtcho Valtchev, and S. J. Young. "MMI training for continuous phoneme recognition on the TIMIT database." Acoustics, Speech, and Signal Processing, 1993. ICASSP-93., 1993 IEEE International Conference on. Sv. 2. IEEE, 1993.
- ^ Halabi, Nawar (2016). Modern Standard Arabic Phonetics for Speech Synthesis (PDF) (Disertační práce). University of Southampton, School of Electronics and Computer Science.
- ^ Ardila, Rosana; Branson, Megan; Davis, Kelly; Henretty, Michael; Kohler, Michael; Meyer, Josh; Morais, Reuben; Saunders, Lindsay; Tyers, Francis M.; Weber, Gregor (13 December 2019). "Common Voice: A Massively-Multilingual Speech Corpus". arXiv:1912.06670v2 [cs.CL ].
- ^ Zhou, Fang, Q. Claire, and Ross D. King. "Predicting the geographical origin of music." Data Mining (ICDM), 2014 IEEE International Conference on. IEEE, 2014.
- ^ Saccenti, Edoardo; Camacho, José (2015). "On the use of the observation‐wise k‐fold operation in PCA cross‐validation". Journal of Chemometrics. 29 (8): 467–478. doi:10.1002/cem.2726. hdl:10481/55302. S2CID 62248957.
- ^ Bertin-Mahieux, Thierry, et al. "The million song dataset." ISMIR 2011: Proceedings of the 12th International Society for Music Information Retrieval Conference, 24–28 October 2011, Miami, Florida. University of Miami, 2011.
- ^ Henaff, Mikael; et al. (2011). "Unsupervised learning of sparse features for scalable audio classification" (PDF). ISMIR. 11.
- ^ Rafii, Zafar (2017). "Hudba". MUSDB18 - a corpus for music separation. doi:10.5281/zenodo.1117372.
- ^ Defferrard, Michaël; Benzi, Kirell; Vandergheynst, Pierre; Bresson, Xavier (6 December 2016). "FMA: A Dataset For Music Analysis". arXiv:1612.01840 [cs.SD ].
- ^ Esposito, Roberto; Radicioni, Daniele P. (2009). "Carpediem: Optimizing the viterbi algorithm and applications to supervised sequential learning" (PDF). The Journal of Machine Learning Research. 10: 1851–1880.
- ^ Sourati, Jamshid; et al. (2016). "Classification Active Learning Based on Mutual Information". Entropie. 18 (2): 51. Bibcode:2016Entrp..18...51S. doi:10.3390/e18020051.
- ^ Salamon, Justin; Jacoby, Christopher; Bello, Juan Pablo. "A dataset and taxonomy for urban sound research." Proceedings of the ACM International Conference on Multimedia. ACM, 2014.
- ^ Lagrange, Mathieu; Lafay, Grégoire; Rossignol, Mathias; Benetos, Emmanouil; Roebel, Axel (2015). "An evaluation framework for event detection using a morphological model of acoustic scenes". arXiv:1502.00141 [stat.ML ].
- ^ Gemmeke, Jort F., et al. "Audio Set: An ontology and human-labeled dataset for audio events." IEEE Mezinárodní konference o akustice, řeči a zpracování signálu (ICASSP). 2017.
- ^ "Watch out, birders: Artificial intelligence has learned to spot birds from their songs". Věda | AAAS. 18. července 2018. Citováno 22. července 2018.
- ^ "Bird Audio Detection challenge". Machine Listening Lab at Queen Mary University. 3. května 2016. Citováno 22. července 2018.
- ^ Wichern, G., et al. "WHAM!: Extending Speech Separation to Noisy Environments", Interspeech, 2019, https://arxiv.org/abs/1907.01160
- ^ Drossos, K., Lipping, S., and Virtanen, T. "Clotho: An Audio Captioning Dataset" IEEE Mezinárodní konference o akustice, řeči a zpracování signálu (ICASSP). 2020.
- ^ Drossos, K., Lipping, S., and Virtanen, T. (2019). Clotho dataset (Version 1.0) [Data set]. Zenodo. http://doi.org/10.5281/zenodo.3490684
- ^ The CAIDA UCSD Dataset on the Witty Worm – 19–24 March 2004, http://www.caida.org/data/passive/witty_worm_dataset.xml
- ^ Chen, Zesheng, and Chuanyi Ji. "Optimal worm-scanning method using vulnerable-host distributions." International Journal of Security and Networks 2.1–2 (2007): 71–80.
- ^ Kachuee, Mohamad, et al. "Cuff-less high-accuracy calibration-free blood pressure estimation using pulse transit time." Circuits and Systems (ISCAS), 2015 IEEE International Symposium on. IEEE, 2015.
- ^ PhysioBank, PhysioToolkit. "PhysioNet: components of a new research resource for complex physiologic signals." Oběh. v101 i23. e215-e220.
- ^ Vergara, Alexander; et al. (2012). "Chemical gas sensor drift compensation using classifier ensembles". Senzory a akční členy B: Chemické. 166: 320–329. doi:10.1016/j.snb.2012.01.074.
- ^ Korotcenkov, G.; Cho, B. K. (2014). "Engineering approaches to improvement of conductometric gas sensor parameters. Part 2: Decrease of dissipated (consumable) power and improvement stability and reliability". Senzory a akční členy B: Chemické. 198: 316–341. doi:10.1016/j.snb.2014.03.069.
- ^ Quinlan, John R (1992). "Learning with continuous classes" (PDF). 5th Australian Joint Conference on Artificial Intelligence. 92.
- ^ Merz, Christopher J.; Pazzani, Michael J. (1999). "A principal components approach to combining regression estimates". Strojové učení. 36 (1–2): 9–32. doi:10.1023/a:1007507221352.
- ^ Torres-Sospedra, Joaquin, et al. "UJIIndoorLoc-Mag: A new database for magnetic field-based localization problems." Indoor Positioning and Indoor Navigation (IPIN), 2015 International Conference on. IEEE, 2015.
- ^ Berkvens, Rafael, Maarten Weyn, and Herbert Peremans. "Mean Mutual Information of Probabilistic Wi-Fi Localization." Indoor Positioning and Indoor Navigation (IPIN), 2015 International Conference on. Banff, Canada: IPIN. 2015.
- ^ Paschke, Fabian, et al. "Sensorlose Zustandsüberwachung an Synchronmotoren."Řízení. 23. Workshop Computational Intelligence, Dortmund, 5.-6. Dezember 2013. KIT Scientific Publishing, 2013.
- ^ Lessmeier, Christian, et al. "Data Acquisition and Signal Analysis from Measured Motor Currents for Defect Detection in Electromechanical Drive Systems."
- ^ Ugulino, Wallace, et al. "Wearable computing: Accelerometers’ data classification of body postures and movements." Advances in Artificial Intelligence-SBIA 2012. Springer Berlin Heidelberg, 2012. 52–61.
- ^ Schneider, Jan; et al. (2015). "Augmenting the senses: a review on sensor-based learning support". Senzory. 15 (2): 4097–4133. doi:10.3390/s150204097. PMC 4367401. PMID 25679313.
- ^ Madeo, Renata CB, Clodoaldo AM Lima, and Sarajane M. Peres. "Gesture unit segmentation using support vector machines: segmenting gestures from rest positions." Proceedings of the 28th Annual ACM Symposium on Applied Computing. ACM, 2013.
- ^ Lun, Roanna; Zhao, Wenbing (2015). "A survey of applications and human motion recognition with Microsoft Kinect". International Journal of Pattern Recognition and Artificial Intelligence. 29 (5): 1555008. doi:10.1142/s0218001415550083.
- ^ Theodoridis, Theodoros, and Huosheng Hu. "Action classification of 3d human models using dynamic ANNs for mobile robot surveillance."Robotics and Biomimetics, 2007. ROBIO 2007. IEEE International Conference on. IEEE, 2007.
- ^ Etemad, Seyed Ali, and Ali Arya. "3D human action recognition and style transformation using resilient backpropagation neural networks." Intelligent Computing and Intelligent Systems, 2009. ICIS 2009. IEEE International Conference on. Sv. 4. IEEE, 2009.
- ^ Altun, Kerem; Barshan, Billur; Tunçel, Orkun (2010). "Comparative study on classifying human activities with miniature inertial and magnetic sensors". Rozpoznávání vzorů. 43 (10): 3605–3620. doi:10.1016/j.patcog.2010.04.019. hdl:11693/11947.
- ^ Nathan, Ran; et al. (2012). "Using tri-axial acceleration data to identify behavioral modes of free-ranging animals: general concepts and tools illustrated for griffon vultures". The Journal of Experimental Biology. 215 (6): 986–996. doi:10.1242/jeb.058602. PMC 3284320. PMID 22357592.
- ^ Anguita, Davide, et al. "Human activity recognition on smartphones using a multiclass hardware-friendly support vector machine." Ambient assisted living and home care. Springer Berlin Heidelberg, 2012. 216–223.
- ^ Su, Xing; Tong, Hanghang; Ji, Ping (2014). "Activity recognition with smartphone sensors". Tsinghua Science and Technology. 19 (3): 235–249. doi:10.1109/tst.2014.6838194.
- ^ Kadous, Mohammed Waleed. Temporal classification: Extending the classification paradigm to multivariate time series. Diss. The University of New South Wales, 2002.
- ^ Graves, Alex, et al. "Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks." Sborník 23. mezinárodní konference o strojovém učení. ACM, 2006.
- ^ Velloso, Eduardo a kol. "Kvalitativní rozpoznávání aktivity cvičení na vzpírání."Sborník ze 4. rozšířené mezinárodní lidské konference. ACM, 2013.
- ^ Mortazavi, Bobak Jack a kol. "Určení jediné nejlepší osy pro rozpoznávání opakování cvičení a počítání na chytrých hodinkách." Sítě nositelných a implantovatelných tělesných senzorů (BSN), 11. mezinárodní konference 2014. IEEE, 2014.
- ^ Sapsanis, Christos a kol. "Zlepšení klasifikace základních pohybů rukou pomocí EMD na základě EMG." Engineering in Medicine and Biology Society (EMBC), 2013. 35. výroční mezinárodní konference IEEE. IEEE, 2013.
- ^ A b Andrianesis, Konstantinos; Tzes, Anthony (2015). "Vývoj a ovládání multifunkční protetické ruky s aktuátory ze slitiny s tvarovou pamětí". Journal of Intelligent & Robotic Systems. 78 (2): 257–289. doi:10.1007 / s10846-014-0061-6. S2CID 207174078.
- ^ Banos, Oresti; et al. (2014). „Řešení dopadů posunu senzoru při rozpoznávání nositelné aktivity“. Senzory. 14 (6): 9995–10023. doi:10,3390 / s140609995. PMC 4118358. PMID 24915181.
- ^ Stisen, Allan a kol. "Inteligentní zařízení se liší: posuzování a zmírňování heterogenit mobilního snímání pro rozpoznávání aktivity."Sborník z 13. konference ACM o vestavěných síťových senzorových systémech. ACM, 2015.
- ^ Bhattacharya, Sourav a Nicholas D. Lane. "Od inteligentního k hlubokému: Robustní rozpoznávání aktivity na chytrých hodinkách pomocí Deep Learning."
- ^ Bacciu, Davide; et al. (2014). "Experimentální charakterizace počítání rezervoárů v aplikacích žijících za asistence prostředí". Neural Computing a aplikace. 24 (6): 1451–1464. doi:10.1007 / s00521-013-1364-4. hdl:11568/237959. S2CID 14124013.
- ^ Palumbo, Filippo; Barsocchi, Paolo; Gallicchio, Claudio; Chessa, Stefano; Micheli, Alessio (2013). „Multisenzorová fúze dat pro rozpoznávání aktivity na základě výpočtu rezervoáru“. Hodnocení systémů AAL prostřednictvím konkurenčního srovnávání. Komunikace v počítačové a informační vědě. 386. str. 24–35. doi:10.1007/978-3-642-41043-7_3. ISBN 978-3-642-41042-0.
- ^ Reiss, Attila a Didier Stricker. "Představujeme novou srovnávací datovou sadu pro monitorování aktivity."Nositelné počítače (ISWC), 16. mezinárodní sympozium o 2012. IEEE, 2012.
- ^ Roggen, Daniel a kol. "PŘÍLEŽITOST: Směrem k systémům oportunistické činnosti a rozpoznávání kontextu." Svět bezdrátových, mobilních a multimediálních sítí a seminářů, 2009. WoWMoM 2009. Mezinárodní sympozium IEEE o. IEEE, 2009.
- ^ Kurz, Marc a kol. "Dynamická kvantifikace schopností rozpoznávání aktivity v oportunistických systémech." Konference o automobilové technologii (jaro VTC), 2011 IEEE 73rd. IEEE, 2011.
- ^ Sztyler, Timo a Heiner Stuckenschmidt. "Lokalizace nositelných zařízení na těle: vyšetřování rozpoznávání aktivity s vědomím polohy." Pervasive Computing and Communications (PerCom), 2016 IEEE International Conference on. IEEE, 2016.
- ^ Zhi, Ying Xuan; Lukasik, Michelle; Li, Michael H .; Dolatabadi, Elham; Wang, Rosalie H .; Taati, Babak (2018). "Automatická detekce kompenzace během rehabilitační terapie pomocí robotické mrtvice". IEEE Journal of Translational Engineering in Health and Medicine. 6: 2100107. doi:10.1109 / JTEHM.2017.2780836. ISSN 2168-2372. PMC 5788403. PMID 29404226.
- ^ Dolatabadi, Elham; Zhi, Ying Xuan; Ye, Bing; Coahran, Marge; Lupinacci, Giorgia; Mihailidis, Alex; Wang, Rosalie; Taati, Babak (23. května 2017). Datový soubor toronto rehabilitační mrtvice představuje detekci kompenzace během rehabilitační terapie mozkové mrtvice. ACM. 375–381. doi:10.1145/3154862.3154925. ISBN 9781450363631. S2CID 24581930.
- ^ "Datová sada Toronto Rehab Stroke Pose".
- ^ Jung, Merel M .; Poel, Mannes; Poppe, Ronald; Heylen, Dirk K. J. (1. března 2017). "Automatické rozpoznávání dotykových gest v korpusu sociálního dotyku". Deník o multimodálních uživatelských rozhraních. 11 (1): 81–96. doi:10.1007 / s12193-016-0232-9. ISSN 1783-8738. S2CID 1802116.
- ^ Jung, M.M. (Merel) (1. června 2016). „Corpus of Social Touch (CoST)“. University of Twente. doi:10.4121 / uuid: 5ef62345-3b3e-479c-8e1d-c922748c9b29. Citovat deník vyžaduje
| deník =
(Pomoc) - ^ Aeberhard, S., D. Coomans a O. De Vel. "Porovnání klasifikátorů ve vysoce dimenzionálním nastavení." Odbor matematiky Statist., James Cook Univ., North Queensland, Austrálie, Tech. Rep 92-02 (1992).
- ^ Basu, Sugato. "Klastrování s částečným dohledem s omezenými znalostmi pozadí." AAAI. 2004.
- ^ Tüfekci, Pınar (2014). "Predikce elektrického výkonu při plném zatížení elektrárny s kombinovaným cyklem provozovanou při základním zatížení pomocí metod strojového učení". International Journal of Electrical Power & Energy Systems. 60: 126–140. doi:10.1016 / j.ijepes.2014.02.027.
- ^ Kaya, Heysem, Pınar Tüfekci a Fikret S. Gürgen. „Místní a globální metody učení pro předpovídání výkonu kombinované plynové a parní turbíny.“ Mezinárodní konference o nových trendech v počítačovém a elektronickém inženýrství (ICETCEE'2012), Dubaj. 2012.
- ^ Baldi, Pierre; Sadowski, Peter; Whiteson, Daniel (2014). "Hledání exotických částic ve fyzice vysokých energií s hlubokým učením". Příroda komunikace. 5: 2014. arXiv:1402.4735. Bibcode:2014NatCo ... 5.4308B. doi:10.1038 / ncomms5308. PMID 24986233. S2CID 195953.
- ^ A b Baldi, Pierre; Sadowski, Peter; Whiteson, Daniel (2015). "Enhanced Higgs Boson to τ + τ− Search with Deep Learning". Dopisy o fyzické kontrole. 114 (11): 111801. arXiv:1410.3469. Bibcode:2015PhRvL.114k1801B. doi:10.1103 / physrevlett.114.111801. PMID 25839260. S2CID 2339142.
- ^ A b Adam-Bourdarios, C .; Cowan, G .; Germain-Renaud, C .; Guyon, I .; Kégl, B .; Rousseau, D. (2015). „Výzva Higgsova strojového učení“. Série konferencí Journal of Physics. 664 (7): 072015. Bibcode:2015JPhCS.664g2015A. doi:10.1088/1742-6596/664/7/072015.
- ^ Pierre Baldi, Kyle Cranmer, Taylor Faucett, Peter Sadowski a Daniel Whiteson. ''Parametrizované strojové učení pro fyziku vysokých energií " V podání.
- ^ Ortigosa, I .; Lopez, R .; Garcia, J. „Přístup neuronových sítí k reziduálnímu odporu predikce plachetnic“. Sborník mezinárodní konference o námořním strojírenství MARINE. 2007.
- ^ Gerritsma, J., R. Onnink a A. Versluis.Geometrie, odolnost a stabilita systematické řady trupu jachty delft. Delft University of Technology, 1981.
- ^ Liu, Huan a Hiroshi Motoda. Extrakce, konstrukce a výběr funkcí: Perspektiva dolování dat. Springer Science & Business Media, 1998.
- ^ Reich, Yorame. Konvergování k ideálním znalostem designu pomocí učení. [Carnegie Mellon University], Výzkumné centrum Engineering Design, 1989.
- ^ Todorovski, Ljupčo; Džeroski, Sašo (1999). „Experimenty v metaúrovni učení s ILP“. Zásady dolování dat a získávání znalostí. Přednášky z informatiky. 1704. 98–106. doi:10.1007/978-3-540-48247-5_11. ISBN 978-3-540-66490-1.
- ^ Wang, Yong. Nový přístup k přizpůsobení lineárních modelů do prostorů vysokých rozměrů. Diss. University of Waikato, 2000.
- ^ Kibler, Dennis; Aha, David W .; Albert, Marc K. (1989). „Instance-based prediction of real-valued attributes“. Výpočetní inteligence. 5 (2): 51–57. doi:10.1111 / j.1467-8640.1989.tb00315.x. S2CID 40800413.
- ^ Palmer, Christopher R. a Christos Faloutsos. "Elektrická vnější podobnost kategorických atributů." Pokroky ve zjišťování znalostí a dolování dat. Springer Berlin Heidelberg, 2003. 486–500.
- ^ Tsanas, Athanasios; Xifara, Angeliki (2012). "Přesný kvantitativní odhad energetické náročnosti obytných budov pomocí statistických nástrojů strojového učení". Energie a budovy. 49: 560–567. doi:10.1016 / j.enbuild.2012.03.003.
- ^ De Wilde, Pieter (2014). „Rozdíl mezi předpovídanou a měřenou energetickou náročností budov: rámec pro vyšetřování“. Automatizace ve stavebnictví. 41: 40–49. doi:10.1016 / j.autcon.2014.02.009.
- ^ Brooks, Thomas F., D. Stuart Pope a Michael A. Marcolini. Hluk křídla a předpověď. Sv. 1218. National Aeronautics and Space Administration, Office of Management, Scientific and Technical Information Division, 1989.
- ^ Draper, David. "Hodnocení a šíření nejistoty modelu." Journal of the Royal Statistical Society, Series B (Methodological) (1995): 45–97.
- ^ Lavine, Michael (1991). "Problémy s extrapolací ilustrované daty O-kroužku raketoplánu". Journal of the American Statistical Association. 86 (416): 919–921. doi:10.1080/01621459.1991.10475132.
- ^ Wang, Jun, Bei Yu a Les Gasser. "Konceptuální klastrová vizualizace založená na stromech se stínovanými maticemi podobnosti." Data Mining, 2002. ICDM 2003. Sborník. 2002 Mezinárodní konference IEEE dne. IEEE, 2002.
- ^ Pettengill, Gordon H. a kol. "Magellan: Radarové výkonové a datové produkty." Věda252.5003 (1991): 260–265.
- ^ A b Aharonian, F .; et al. (2008). "Energetické spektrum elektronů kosmického záření při energiích TeV". Dopisy o fyzické kontrole. 101 (26): 261104. arXiv:0811.3894. Bibcode:2008PhRvL.101z1104A. doi:10.1103 / PhysRevLett.101.261104. hdl:2440/51450. PMID 19437632. S2CID 41850528.
- ^ Bock, R. K .; et al. (2004). „Metody pro vícerozměrnou klasifikaci událostí: případová studie využívající obrázky z čerenkovského gama dalekohledu“. Jaderné přístroje a metody ve fyzice Výzkum sekce A: Urychlovače, spektrometry, detektory a související zařízení. 516 (2): 511–528. Bibcode:2004 NIMPA.516..511B. doi:10.1016 / j.nima.2003.08.157.
- ^ Li, Jinyan; et al. (2004). „Deeps: Nový líný systém zjišťování a klasifikace založený na instancích“. Strojové učení. 54 (2): 99–124. doi:10.1023 / b: mach.0000011804.08528.7d.
- ^ Siebert, Lee a Tom Simkin. „Sopky světa: ilustrovaný katalog holocénních sopek a jejich erupcí.“ (2014).
- ^ Sikora, Marek; Wróbel, Łukasz (2010). „Aplikace algoritmů indukce pravidel pro analýzu dat shromážděných systémy pro monitorování seismických rizik v uhelných dolech“. Archivy hornických věd. 55 (1): 91–114.
- ^ Sikora, Marek a Beata Sikora. „Hrubé monitorování přírodních rizik.“ Rough Sets: Selected Methods and Applications in Management and Engineering. Springer London, 2012. 163–179.
- ^ Yeh, I – C (1998). "Modelování pevnosti vysoce výkonného betonu pomocí umělých neuronových sítí". Výzkum cementu a betonu. 28 (12): 1797–1808. doi:10.1016 / s0008-8846 (98) 00165-3.
- ^ Zarandi, MH Fazel; et al. (2008). "Fuzzy polynomiální neuronové sítě pro aproximaci pevnosti v tlaku betonu". Applied Soft Computing. 8 (1): 488–498. Bibcode:2008ApSoC ... 8 ... 79S. doi:10.1016 / j.asoc.2007.02.010.
- ^ Yeh, I. "Modelování propadu betonu pomocí popílku a superplastifikátoru." Počítače a beton5.6 (2008): 559–572.
- ^ Gencel, Osman; et al. (2011). "Porovnání umělých neuronových sítí a obecných přístupů lineárního modelu pro analýzu abrazivního opotřebení betonu". Stavební a stavební materiály. 25 (8): 3486–3494. doi:10.1016 / j.conbuildmat.2011.03.040.
- ^ Dietterich, Thomas G. a kol. "Srovnání dynamického uložení a tečné vzdálenosti pro predikci aktivity drog." Pokroky v systémech zpracování neurálních informací (1994): 216–216.
- ^ Buscema, Massimo, William J. Tastle a Stefano Terzi. "Meta net: Nová rodina meta-klasifikátorů."Data Mining Applications using Artificial Adaptive Systems. Springer New York, 2013. 141–182.
- ^ Ingber, Lester (1997). "Statistická mechanika neokortikálních interakcí: kanonické indikátory momentů elektroencefalografie". Fyzický přehled E. 55 (4): 4578–4593. arXiv:fyzika / 0001052. Bibcode:1997PhRvE..55.4578I. doi:10.1103 / PhysRevE.55.4578. S2CID 6390999.
- ^ Hoffmann, Ulrich; Vesin, Jean-Marc; Ebrahimi, Touradj; Diserens, Karin (2008). „Efektivní rozhraní mozku a počítače založené na P300 pro postižené subjekty“. Journal of Neuroscience Methods. 167 (1): 115–125. CiteSeerX 10.1.1.352.4630. doi:10.1016 / j.jneumeth.2007.03.005. PMID 17445904. S2CID 9648828.
- ^ Donchin, Emanuel; Spencer, Kevin M .; Wijesinghe, Ranjith (2000). „Mentální protéza: hodnocení rychlosti rozhraní mozek-počítač na bázi P300“. Transakce IEEE na rehabilitačním inženýrství. 8 (2): 174–179. doi:10.1109/86.847808. PMID 10896179.
- ^ Detrano, Robert; et al. (1989). "Mezinárodní aplikace nového algoritmu pravděpodobnosti pro diagnostiku ischemické choroby srdeční". The American Journal of Cardiology. 64 (5): 304–310. doi:10.1016/0002-9149(89)90524-9. PMID 2756873.
- ^ Bradley, Andrew P (1997). „Využití oblasti pod křivkou ROC při hodnocení algoritmů strojového učení“ (PDF). Rozpoznávání vzorů. 30 (7): 1145–1159. doi:10.1016 / s0031-3203 (96) 00142-2.
- ^ Street, W. N .; Wolberg, W. H .; Mangasarian, O. L. (1993). "Extrakce jaderných znaků pro diagnostiku nádoru prsu". V Acharya, Raj S; Goldgof, Dmitry B (eds.). Zpracování biomedicínského obrazu a biomedicínská vizualizace. 1905. str. 861–870. doi:10.1117/12.148698. S2CID 14922543.
- ^ Demir, Cigdem a Bülent Yener. "Automatizovaná diagnostika rakoviny na základě histopatologických obrazů: systematický průzkum." Rensselaer Polytechnic Institute, Tech. Rep (2005).
- ^ Zneužití, látka. „Správa služeb v oblasti duševního zdraví, výsledky národního průzkumu užívání drog a zdraví v roce 2010: Souhrn národních poznatků, NSDUH série H-41, publikace HHS (SMA) 11-4658.“ Rockville, MD: Zneužívání návykových látek a správa služeb duševního zdraví 201 (2011).
- ^ Hong, Zi-Quan; Yang, Jing-Yu (1991). Msgstr "Optimální diskriminační rovina pro malý počet vzorků a návrhová metoda klasifikátoru v rovině". Rozpoznávání vzorů. 24 (4): 317–324. doi:10.1016 / 0031-3203 (91) 90074-f.
- ^ A b Li, Jinyan a Limsoon Wong. „Používání pravidel k analýze biomedicínských údajů: srovnání mezi C4. 5 a PCL.“ Pokroky ve správě informací o věku na webu. Springer Berlin Heidelberg, 2003. 254-265.
- ^ Güvenir, H. Altay a kol. "Algoritmus strojového učení pod dohledem pro analýzu arytmie."Počítače v kardiologii 1997. IEEE, 1997.
- ^ Lagus, Krista a kol. "Nezávislá analýza skupin proměnných při výuce kompaktních reprezentací dat." Sborník mezinárodní a interdisciplinární konference o adaptivní reprezentaci znalostí a jejich uvažování (AKRR'05), T. Honkela, V. Könönen, M. Pöllä a O. Simula, ed., Espoo, Finsko. 2005.
- ^ Strack, Beata a kol. "Dopad měření HbA1c na míru zpětného přebírání v nemocnici: analýza 70 000 záznamů pacientů z klinické databáze." BioMed Research International 2014; 2014
- ^ Rubin, Daniel J (2015). „Nemocniční zpětné převzetí pacientů s diabetem“. Aktuální zprávy o cukrovce. 15 (4): 1–9. doi:10.1007 / s11892-015-0584-7. PMID 25712258. S2CID 3908599.
- ^ Antal, Bálint; Hajdu, András (2014). "Souborový systém pro automatický screening diabetické retinopatie". Znalostní systémy. 60 (2014): 20–27. arXiv:1410.8576. Bibcode:2014arXiv1410.8576A. doi:10.1016 / j.knosys.2013.12.023. S2CID 13984326.
- ^ Haloi, Mrinal (2015). "Vylepšená detekce mikroaneuryzmatu pomocí hlubokých neuronových sítí". arXiv:1505.04424 [cs.CV ].
- ^ ELIE, Guillaume PATRY, Gervais GAUTHIER, Bruno LAY, Julien ROGER, Damien. „ADCIS Download Third Party: Messidor Database“. adcis.net. Citováno 25. února 2018.
- ^ Decencière, Etienne; Zhang, Xiwei; Cazuguel, Guy; Lay, Bruno; Cochener, Béatrice; Trone, Caroline; Zisk, Philippe; Ordonez, Richard; Massin, Pascale (26. srpna 2014). „Zpětná vazba k veřejně distribuované databázi obrazů: databáze Messidor“. Analýza obrazu a stereologie. 33 (3): 231–234. doi:10,5566 / ias.1155. ISSN 1854-5165.
- ^ Bagirov, A. M .; et al. (2003). "Neupravovaná a kontrolovaná klasifikace dat prostřednictvím nehladké a globální optimalizace". Horní. 11 (1): 1–75. CiteSeerX 10.1.1.1.6429. doi:10.1007 / bf02578945. S2CID 14165678.
- ^ Fung, Glenn a kol. "Rychlý iterační algoritmus pro diskriminační rybáře využívající heterogenní jádra."Sborník příspěvků z 21. mezinárodní konference o strojovém učení. ACM, 2004.
- ^ Quinlan, John Ross a kol. „Induktivní získávání znalostí: případová studie.“ Sborník z druhé australské konference o aplikacích expertních systémů. Addison-Wesley Longman Publishing Co., Inc., 1987.
- ^ A b Zhou, Zhi-Hua; Jiang, Yuan (2004). „NeC4. 5: neurální soubor založený na C4. 5“. Transakce IEEE na znalostní a datové inženýrství. 16 (6): 770–773. CiteSeerX 10.1.1.1.8430. doi:10.1109 / tkde.2004.11. S2CID 1024861.
- ^ Er, Orhan; et al. (2012). „Přístup založený na pravděpodobnostní neurální síti pro diagnostiku mezoteliomové choroby“. Počítače a elektrotechnika. 38 (1): 75–81. doi:10.1016 / j.compeleceng.2011.09.001.
- ^ Er, Orhan, A. Çetin Tanrikulu a Abdurrahman Abakay. "Využití technik umělé inteligence pro diagnostiku maligního mezoteliomu pleury."Dicle Tıp Dergisi 42.1 (2015).
- ^ Li, Michael H .; Mestre, Tiago A .; Fox, Susan H .; Taati, Babak (25. července 2017). „Hodnocení parkinsonismu a dyskineze vyvolané levodopou na základě vidění s odhadem hloubky učení“. Journal of Neuroengineering and Rehabilitation. 15 (1): 97. arXiv:1707.09416. Bibcode:2017arXiv170709416L. doi:10.1186 / s12984-018-0446-z. PMC 6219082. PMID 30400914.
- ^ Li, Michael H .; Mestre, Tiago A .; Fox, Susan H .; Taati, Babak (květen 2018). „Automatické hodnocení dyskineze vyvolané levodopou: Vyhodnocení odezvy funkcí založených na videu“. Parkinsonismus a související poruchy. 53: 42–45. doi:10.1016 / j.parkreldis.2018.04.036. ISSN 1353-8020. PMID 29748112.
- ^ „Datová sada pro odhad pozice podle Parkinsonovy vize | Kaggle“. kaggle.com. Citováno 22. srpna 2018.
- ^ Shannon, Paul; et al. (2003). „Cytoscape: softwarové prostředí pro integrované modely sítí biomolekulárních interakcí“. Výzkum genomu. 13 (11): 2498–2504. doi:10,1101 / gr. 1239303. PMC 403769. PMID 14597658.
- ^ Javadi, Soroush; Mirroshandel, Seyed Abolghasem (2019). "Nová metoda hlubokého učení pro automatické hodnocení obrazů lidských spermií". Počítače v biologii a medicíně. 109: 182–194. doi:10.1016 / j.compbiomed.2019.04.030. ISSN 0010-4825. PMID 31059902.
- ^ „datová sada soroushj / mhsma: MHSMA: datová sada morfologické analýzy modifikované lidské spermie“. github.com. Citováno 3. května 2019.
- ^ Clark, David, Zoltan Schreter a Anthony Adams. „Kvantitativní srovnání dystalu a zpětného šíření.“ Sborník australské konference o neuronových sítích z roku 1996. 1996.
- ^ Jiang, Yuan a Zhi-Hua Zhou. "Úpravy tréninkových dat pro klasifikátory kNN pomocí souboru neuronových sítí." Pokroky v neuronových sítích - ISNN 2004. Springer Berlin Heidelberg, 2004. 356–361.
- ^ Ontañón, Santiago a Enric Plaza. „Na opatřeních podobnosti založených na rafinační mřížce.“ Výzkum a vývoj v oblasti uvažování na základě jednotlivých případů. Springer Berlin Heidelberg, 2009. 240–255.
- ^ Higuera, Clara; Gardiner, Katheleen J .; Cios, Krzysztof J. (2015). „Samoorganizující se mapy funkcí identifikují proteiny kritické pro učení v myším modelu Downova syndromu“. PLOS ONE. 10 (6): e0129126. Bibcode:2015PLoSO..1029126H. doi:10.1371 / journal.pone.0129126. PMC 4482027. PMID 26111164.
- ^ Ahmed, Md Mahiuddin; et al. (2015). "Dynamika proteinů spojená s neúspěšným a zachráněným učením v modelu myši Ts65Dn s Downovým syndromem". PLOS ONE. 10 (3): e0119491. Bibcode:2015PLoSO..1019491A. doi:10.1371 / journal.pone.0119491. PMC 4368539. PMID 25793384.
- ^ Cortez, Paulo a Aníbal de Jesus Raimundo Morais. „Přístup k dolování dat k předpovědi lesních požárů pomocí meteorologických dat.“ (2007).
- ^ Farquad, M. A. H .; Ravi, V .; Raju, S. Bapi (2010). Msgstr "Podporovat metody předpovědi hybridní extrakce pomocí vektorové regrese". Expertní systémy s aplikacemi. 37 (8): 5577–5589. doi:10.1016 / j.eswa.2010.02.055.
- ^ Fisher, Ronald A (1936). "Použití více měření v taxonomických problémech". Annals of Eugenics. 7 (2): 179–188. doi:10.1111 / j.1469-1809.1936.tb02137.x. hdl:2440/15227.
- ^ Ghahramani, Zoubin a Michael I. Jordan. "Kontrolované učení z neúplných dat prostřednictvím EM přístupu." Pokroky v systémech zpracování neurálních informací 6. 1994.
- ^ Mallah, Charles; Cope, James; Orwell, James (2013). „Klasifikace listů rostlin pomocí pravděpodobnostní integrace tvarových, texturních a okrajových prvků“. Zpracování signálu, rozpoznávání vzorů a aplikace. 5: 1.
- ^ Yahiaoui, Itheri, Olfa Mzoughi a Nozha Boujemaa. "Deskriptor tvaru listu pro identifikaci druhů stromů." Multimedia and Expo (ICME), 2012 IEEE International Conference on. IEEE, 2012.
- ^ Langley, PAT (2014). „Výměna jednoduchosti a pokrytí v postupném učení konceptů“ (PDF). Postup strojového učení. 1988: 73.
- ^ Tan, Ming a Larry Eshelman. "Používání vážených sítí k reprezentaci znalostí klasifikace v hlučných doménách." Sborník příspěvků z páté mezinárodní konference o strojovém učení. 2014.
- ^ Charytanowicz, Małgorzata a kol. "Kompletní algoritmus gradientního shlukování pro analýzu funkcí rentgenových snímků." Informační technologie v biomedicíně. Springer Berlin Heidelberg, 2010. 15–24.
- ^ Sanchez, Mauricio A .; et al. (2014). "Fuzzy granulovaný gravitační shlukovací algoritmus pro vícerozměrná data". Informační vědy. 279: 498–511. doi:10.1016 / j.ins.2014.04.005.
- ^ Blackard, Jock A .; Dean, Denis J. (1999). "Srovnávací přesnost umělých neuronových sítí a diskriminační analýza při předpovídání typů lesních porostů z kartografických proměnných". Počítače a elektronika v zemědělství. 24 (3): 131–151. CiteSeerX 10.1.1.128.2475. doi:10.1016 / s0168-1699 (99) 00046-0.
- ^ Fürnkranz, Johannes. "Učení pravidel každého s každým."Sborník z 18. mezinárodní konference o strojovém učení (ICML-01): 146--153. 2001.
- ^ Li, Song; Assmann, Sarah M .; Albert, Réka (2006). „Predikce základních komponent sítí pro přenos signálu: dynamický model signalizace kyseliny abscisové v ochranné buňce“. PLOS Biol. 4 (10): e312. arXiv:q-bio / 0610012. Bibcode:2006q.bio .... 10012L. doi:10.1371 / journal.pbio.0040312. PMC 1564158. PMID 16968132.
- ^ Munisami, Trishen; et al. (2015). „Rozpoznávání listů rostlin pomocí tvarových funkcí a barevného histogramu s klasifikátory sousedních K-nejbližších“. Procedia informatika. 58: 740–747. doi:10.1016 / j.procs.2015.08.095.
- ^ Li, Bai (2016). „Atomic potential matching: Evolutionary target recognition approach based on edge features“. Optik-International Journal for Light and Electron Optics. 127 (5): 3162–3168. Bibcode:2016Optik.127.3162L. doi:10.1016 / j.ijleo.2015.11.186.
- ^ Nilsback, Maria-Elena a Andrew Zisserman. "Vizuální slovník pro klasifikaci květin."Počítačové vidění a rozpoznávání vzorů, 2006 IEEE Computer Society Conference on. Sv. 2. IEEE, 2006.
- ^ Giselsson, Thomas M .; et al. (2017). "Veřejná databáze obrázků pro srovnávací testy klasifikačních algoritmů rostlinných sazenic". arXiv:1711.05458 [cs.CV ].
- ^ Muresan, Horea; Oltean, Mihai (2018). „Rozpoznávání ovoce z obrázků pomocí hlubokého učení“. Acta Univ. Sapientiae, Informatica. 10 (1): 26–42. doi:10.2478 / ausi-2018-0002.
- ^ Oltean, Mihai; Muresan, Horea (2017). „Soubor dat s obrázky ovoce na Kaggle“.
- ^ Nakai, Kenta; Kanehisa, Minoru (1991). „Expertní systém pro predikci lokalizace proteinů v gramnegativních bakteriích“. Proteiny: struktura, funkce a bioinformatika. 11 (2): 95–110. doi:10,1002 / prot. 340110203. PMID 1946347. S2CID 27606447.
- ^ Ling, Charles X. a kol. "Rozhodovací stromy s minimálními náklady." Sborník příspěvků z 21. mezinárodní konference o strojovém učení. ACM, 2004.
- ^ Mahé, Pierre a kol. "Automatická identifikace otisků prstů smíšených bakteriálních druhů v hmotnostním spektru MALDI-TOF." Bioinformatika (2014): btu022.
- ^ Barbano, Duane; et al. (2015). „Rychlá charakterizace mikrořas a směsí mikrořas pomocí hmotnostní spektrometrie s laserovou desorpcí a ionizací pomocí laseru s maticí (MALDI-TOF MS). PLOS ONE. 10 (8): e0135337. Bibcode:2015PLoSO..1035337B. doi:10.1371 / journal.pone.0135337. PMC 4536233. PMID 26271045.
- ^ Horton, Paul; Nakai, Kenta (1996). „Pravděpodobnostní klasifikační systém pro predikci buněčných lokalizačních míst proteinů“ (PDF). Sborník ISMB-96. 4: 109–15. PMID 8877510.
- ^ Allwein, Erin L .; Schapire, Robert E .; Singer, Yoram (2001). „Reducing multiclass to binary: a unifying approach for margin classifiers“ (PDF). The Journal of Machine Learning Research. 1: 113–141.
- ^ Mayr, Andreas; Klambauer, Guenter; Unterthiner, Thomas; Hochreiter, Sepp (2016). „DeepTox: Predikce toxicity pomocí hlubokého učení“. Hranice ve vědě o životním prostředí. 3: 80. doi:10.3389 / fenvs.2015.00080.
- ^ Lavin, Alexander; Ahmad, Subutai (12. října 2015). Vyhodnocení algoritmů detekce anomálií v reálném čase - referenční hodnota anomálií Numenta. str. 38. arXiv:1510.03336. doi:10.1109 / ICMLA.2015.141. ISBN 978-1-5090-0287-0. S2CID 6842305.
- ^ Campos, Guilherme O .; Zimek, Arthur; Sander, Jörg; Campello, Ricardo J. G. B .; Micenková, Barbora; Schubert, Erich; Souhlas, Ira; Houle, Michael E. (2016). "O vyhodnocení odhalování odlehlých hodnot bez dohledu: opatření, datové soubory a empirická studie". Těžba dat a vyhledávání znalostí. 30 (4): 891. doi:10.1007 / s10618-015-0444-8. ISSN 1384-5810. S2CID 1952214.
- ^ Ann-Kathrin Hartmann, Tommaso Soru, Edgard Marx. Generování velké datové sady pro zodpovídání neurálních otázek ve znalostní databázi DBpedia. 2018.
- ^ Tommaso Soru, Edgard Marx. Diego Moussallem, Andre Valdestilhas, Diego Esteves, Ciro Baron. SPARQL jako cizí jazyk. 2018.
- ^ Kiet Van Nguyen, Duc-Vu Nguyen, Anh Gia-Tuan Nguyen, Ngan Luu-Thuy Nguyen. Vietnamská datová sada pro vyhodnocení porozumění strojovému čtení. 2020.
- ^ Kiet Van Nguyen, Khiem Vinh Tran, syn T. Luu, Anh Gia-Tuan Nguyen, Ngan Luu-Thuy Nguyen. Posílení přístupu založeného na lexice s externími znalostmi pro porozumění čtení vietnamských strojů s možností výběru ze stroje. 2020.
- ^ Brown, Michael Scott, Michael J. Pelosi a Henry Dirska. "Genetický algoritmus šetřící druhy s dynamickým poloměrem pro finanční prognózy akcií indexu Dow Jones." Strojové učení a dolování dat v rozpoznávání vzorů. Springer Berlin Heidelberg, 2013. 27–41.
- ^ Shen, Kao-Yi; Tzeng, Gwo-Hshiung (2015). „Fuzzy Inference-Enhanced VC-DRSA Model for Technical Analysis: Investment Decision Aid“. International Journal of Fuzzy Systems. 17 (3): 375–389. doi:10.1007 / s40815-015-0058-8. S2CID 68241024.
- ^ Quinlan, J. Ross (1987). "Zjednodušení rozhodovacích stromů". International Journal of Man-machine Studies. 27 (3): 221–234. CiteSeerX 10.1.1.18.4267. doi:10.1016 / s0020-7373 (87) 80053-6.
- ^ Hamers, Bart; Suykens, Johan AK; De Moor, Bart (2003). „Výukové studium sdruženého transdukčního souboru modelů jádra“ (PDF). Journal of Machine Learning Research. 1: 1–48.
- ^ Shmueli, Galit, Ralph P. Russo a Wolfgang Jank. "BARISTA: model pro příchozí nabídky v online aukcích." Annals of Applied Statistics(2007): 412–441.
- ^ Peng, Jie a Hans-Georg Müller. "Vzdálené shlukování řídce pozorovaných stochastických procesů s aplikacemi pro online aukce." Annals of Applied Statistics (2008): 1056–1077.
- ^ Eggermont, Jeroen, Joost N. Kok a Walter A. Kosters. "Genetické programování pro klasifikaci dat: Rozdělení prostoru pro vyhledávání."Sborník sympozia ACM z roku 2004 o aplikované práci s počítačem. ACM, 2004.
- ^ Moro, Sérgio; Cortez, Paulo; Rita, Paulo (2014). „Přístup založený na datech k předpovědi úspěšnosti bankovního telemarketingu“. Systémy podpory rozhodování. 62: 22–31. doi:10.1016 / j.dss.2014.03.001. hdl:10071/9499.
- ^ Payne, Richard D .; Mallick, Bani K. (2014). "Bayesovská klasifikace velkých dat: recenze s doplňky". arXiv:1411.5653 [stat.ME ].
- ^ Akbilgic, Oguz; Bozdogan, Hamparsum; Balaban, M. Erdal (2014). "Nový model hybridních RBF neuronových sítí jako prognostik". Statistiky a výpočty. 24 (3): 365–375. doi:10.1007 / s11222-013-9375-7. S2CID 17764829.
- ^ Jabin, Suraiya. "Predikce akciového trhu pomocí dopředné umělé neuronové sítě." Int. J. Comput. Appl. (IJCA) 99.9 (2014).
- ^ Yeh, I-Cheng; Che-hui, Lien (2009). "Srovnání technik dolování dat pro prediktivní přesnost pravděpodobnosti selhání klientů kreditních karet". Expertní systémy s aplikacemi. 36 (2): 2473–2480. doi:10.1016 / j.eswa.2007.12.020.
- ^ Lin, Shu Ling (2009). „Nový dvoustupňový hybridní přístup k úvěrovému riziku v bankovním sektoru“. Expertní systémy s aplikacemi. 36 (4): 8333–8341. doi:10.1016 / j.eswa.2008.10.015.
- ^ Pelckmans, Kristiaan; et al. (2005). "Diferogram: Neparametrický odhad rozptylu šumu a jeho použití pro výběr modelu". Neuropočítání. 69 (1): 100–122. doi:10.1016 / j.neucom.2005.02.015.
- ^ Bay, Stephen D .; et al. (2000). "Archiv velkých datových souborů UCI KDD pro dolování a experimentování s dolováním dat". Informační bulletin průzkumů ACM SIGKDD. 2 (2): 81–85. CiteSeerX 10.1.1.15.9776. doi:10.1145/380995.381030. S2CID 534881.
- ^ Lucas, D. D .; et al. (2015). „Navrhování optimálních sítí pro pozorování skleníkových plynů, které zohledňují výkon a náklady“. Geovědecké vybavení, metody a datové systémy. 4 (1): 121. Bibcode:2015GI ...... 4..121L. doi:10.5194 / gi-4-121-2015.
- ^ Pales, Jack C .; Keeling, Charles D. (1965). "Koncentrace atmosférického oxidu uhličitého na Havaji". Journal of Geophysical Research. 70 (24): 6053–6076. Bibcode:1965JGR .... 70,6053P. doi:10.1029 / jz070i024p06053.
- ^ Sigillito, Vincent G. a kol. „Klasifikace návratů radaru z ionosféry pomocí neuronových sítí.“ Johns Hopkins APL technický přehled10.3 (1989): 262–266.
- ^ Zhang, Kun a Wei Fan. "Předpovídání zkreslených předpojatých stochastických dnů ozonu: analýzy, řešení a další." Znalostní a informační systémy14.3 (2008): 299–326.
- ^ Reich, Brian J., Montserrat Fuentes a David B. Dunson. "Bayesovská prostorová kvantilní regrese." Journal of the American Statistical Association (2012).
- ^ Kohavi, Ron (1996). „Zvyšování přesnosti klasifikátorů Naive-Bayes: hybridní rozhodovací strom“. KDD. 96.
- ^ Oza, Nikunj C. a Stuart Russell. „Experimentální srovnání online a dávkových verzí pytlování a posilování.“ Sborník ze sedmé mezinárodní konference ACM SIGKDD o objevování znalostí a dolování dat. ACM, 2001.
- ^ Bay, Stephen D (2001). Msgstr "Vícerozměrná diskretizace pro těžbu množin". Znalostní a informační systémy. 3 (4): 491–512. CiteSeerX 10.1.1.217.921. doi:10.1007 / pl00011680. S2CID 10945544.
- ^ Ruggles, Steven (1995). Msgstr "Vzory vzorků a chyby vzorkování". Historické metody: Časopis kvantitativní a interdisciplinární historie. 28 (1): 40–46. doi:10.1080/01615440.1995.9955312.
- ^ Pokorní, Christopher, Bo Thiesson a David Heckerman. "Metoda křivky učení použitá pro shlukování." AISTATS. 2001.
- ^ Fanaee-T, Hadi; Gama, Joao (2013). „Označování událostí kombinující detektory souborů a znalosti pozadí“. Pokrok v oblasti umělé inteligence. 2 (2–3): 113–127. doi:10.1007 / s13748-013-0040-3. S2CID 3345087.
- ^ Giot, Romain a Raphaël Cherrier. "Předvídání využití systému bikeshare až na jeden den dopředu." Výpočetní inteligence ve vozidlech a dopravních systémech (CIVTS), sympozium IEEE 2014 dne. IEEE, 2014.
- ^ Zhan, Xianyuan; et al. (2013). "Odhad doby cestování městským spojem pomocí rozsáhlých údajů o taxíku s částečnými informacemi". Dopravní výzkum, část C: Rozvíjející se technologie. 33: 37–49. doi:10.1016 / j.trc.2013.04.001.
- ^ Moreira-Matias, Luis; et al. (2013). „Predikce poptávky po taxi a cestujících pomocí streamovaných dat“. Transakce IEEE na inteligentních dopravních systémech. 14 (3): 1393–1402. doi:10.1109 / kozy.2013.2262376. S2CID 14764358.
- ^ Hwang, Ren-Hung; Hsueh, Yu-Ling; Chen, Yu-Ting (2015). "Efektivní systém doporučování taxi založený na modelu časoprostorové faktorové analýzy". Informační vědy. 314: 28–40. doi:10.1016 / j.ins.2015.03.068.
- ^ Meusel, Robert a kol. "Struktura grafu na webu - analyzována na různých úrovních agregace."The Journal of Web Science 1.1 (2015).
- ^ Kushmerick, Nicholas. "Naučit se odstraňovat internetové reklamy." Sborník příspěvků ze třetí výroční konference o autonomních agentech. ACM, 1999.
- ^ Fradkin, Dmitriy a David Madigan. "Experimenty s náhodnými projekcemi pro strojové učení."Sborník z deváté mezinárodní konference ACM SIGKDD o získávání znalostí a dolování dat. ACM, 2003.
- ^ Tato data byla použita v Americké statistické asociaci Statistická grafika a výpočetní sekce 1999 Data Exposition.
- ^ Ma, Justin a kol. "Identifikace podezřelých adres URL: aplikace rozsáhlého online učení."Sborník z 26. ročníku mezinárodní konference o strojovém učení. ACM, 2009.
- ^ Levchenko, Kirill a kol. "Trajektorie kliknutí: Analýza end-to-end hodnotového řetězce spamu." Zabezpečení a ochrana osobních údajů (SP), 2011 IEEE Symposium on. IEEE, 2011.
- ^ Mohammad, Rami M., Fadi Thabtah a Lee McCluskey. "Posouzení funkcí souvisejících s phishingovými weby pomocí automatizované techniky."Internetová technologie a zabezpečené transakce, 2012 Mezinárodní konference pro. IEEE, 2012.
- ^ Singh, Ashishkumar a kol. "Shlukování experimentů s velkými transakčními daty pro segmentaci trhu." Sborník příspěvků z mezinárodní konference o vědě o velkých datech a výpočetní technice z roku 2014. ACM, 2014.
- ^ Bollacker, Kurt a kol. "Freebase: společně vytvořená databáze grafů pro strukturování lidských znalostí." Sborník příspěvků z mezinárodní konference ACM SIGMOD 2008 o správě dat. ACM, 2008.
- ^ Mintz, Mike a kol. "Vzdálený dohled nad extrakcí relace bez označených dat." Sborník ze společné konference ze 47. výročního zasedání ACL a ze 4. mezinárodní společné konference o zpracování přirozeného jazyka AFNLP: díl 2 - díl 2. Sdružení pro počítačovou lingvistiku, 2009.
- ^ Mesterharm, Chris a Michael J. Pazzani. "Aktivní učení pomocí on-line algoritmů."Sborník ze 17. mezinárodní konference ACM SIGKDD o získávání znalostí a dolování dat. ACM, 2011.
- ^ Wang, Shusen; Zhang, Zhihua (2013). „Zlepšení rozkladu CUR matice a Nyströmova aproximace pomocí adaptivního vzorkování“ (PDF). The Journal of Machine Learning Research. 14 (1): 2729–2769. arXiv:1303.4207. Bibcode:2013arXiv1303,4207W.
- ^ Cattral, Robert; Oppacher, Franz; Deugo, Dwight (2002). „Evoluční dolování dat s automatickým zobecněním pravidel“ (PDF). Nedávné pokroky v oblasti počítačů, výpočetní techniky a komunikace: 296–300. S2CID 18625415.
- ^ Burton, Ariel N .; Kelly, Paul H.J. (2006). "Predikce výkonu stránkovacích úloh pomocí nenáročného trasování". Počítačové systémy budoucí generace. Elsevier BV. 22 (7): 784–793. doi:10.1016 / j.future.2006.02.003. ISSN 0167-739X.
- ^ Bain, Michael; Muggleton, Stephen (1994). "Naučit se optimální šachové strategie". Inteligence strojů. Oxford University Press, Inc. 13.
- ^ Quilan, J. R. (1983). "Naučit se efektivní klasifikační postupy a jejich aplikace na šachové hry". Strojové učení: přístup umělé inteligence. 1: 463–482. doi:10.1007/978-3-662-12405-5_15. ISBN 978-3-662-12407-9.
- ^ Shapiro, Alen D. (1987). Strukturovaná indukce v expertních systémech. Addison-Wesley Longman Publishing Co., Inc.
- ^ Matheus, Christopher J .; Rendell, Larry A. (1989). „Konstruktivní indukce na rozhodovacích stromech“ (PDF). IJCAI. 89.
- ^ Belsley, David A., Edwin Kuh a Roy E. Welsch. Regresní diagnostika: Identifikace vlivných dat a zdrojů kolinearity. Sv. 571. John Wiley & Sons, 2005.
- ^ Ruotsalo, Tuukka; Aroyo, Lora; Schreiber, Guus (2009). „Znalostní jazyková anotace sbírek digitálního kulturního dědictví“ (PDF). Inteligentní systémy IEEE. 24 (2): 64–75. doi:10.1109 / MIS.2009.32. S2CID 6667472.
- ^ Li, Lihong a kol. "Nestranné offline vyhodnocení algoritmů doporučení zpravodajských článků založených na kontextových banditech." Sborník ze čtvrté mezinárodní konference ACM o vyhledávání na webu a dolování dat. ACM, 2011.
- ^ Yeung, Kam Fung a Yanyan Yang. "Proaktivní personalizovaný systém doporučení mobilních zpráv." Vývoj v oblasti elektronických systémů (DESE), 2010. IEEE, 2010.
- ^ Gass, Susan E .; Roberts, J. Murray (2006). „Výskyt studenovodních korálů Lophelia pertusa (Scleractinia) na ropných a plynových platformách v Severním moři: růst kolonií, nábor a kontrola životního prostředí při distribuci“. Bulletin o znečištění moří. 52 (5): 549–559. doi:10.1016 / j.marpolbul.2005.10.002. PMID 16300800.
- ^ Gionis, Aristides; Mannila, Heikki; Tsaparas, Panayiotis (2007). "Shlukování agregací". Transakce ACM při zjišťování znalostí z dat. 1 (1): 4. CiteSeerX 10.1.1.709.528. doi:10.1145/1217299.1217303. S2CID 433708.
- ^ Obradovic, Zoran a Slobodan Vucetic.Výzvy v dolování vědeckých dat: heterogenní, zkreslené a velké vzorky. Technická zpráva, Centrum pro informační vědu a technologii Temple University, 2004.
- ^ Van Der Putten, Peter; van Someren, Maarten (2000). „CoIL challenge 2000: The Insurance Company case“. Publikoval Sentient Machine Research, Amsterdam. Také technická zpráva Leiden Institute of Advanced Computer Science. 9: 1–43.
- ^ Mao, K. Z. (2002). Msgstr "Výběr centra neuronových sítí RBF na základě míry oddělitelnosti třídy Fisherova poměru". Transakce IEEE na neuronových sítích. 13 (5): 1211–1217. doi:10.1109 / tnn.2002.1031953. PMID 18244518.
- ^ Olave, Manuel; Rajkovič, Vladislav; Bohanec, Marko (1989). „Žádost o přijetí do veřejných škol“ (PDF). Expertní systémy ve veřejné správě. 1: 145–160.
- ^ Lizotte, Daniel J., Omid Madani a Russell Greiner. "Rozpočtové učení klasifikátorů nailve-bayes." Sborník z devatenácté konference o nejistotě v umělé inteligenci. Morgan Kaufmann Publishers Inc., 2002.
- ^ Lebowitz, Michael (1986). Koncept učení v bohaté vstupní doméně: paměť založená na generalizaci. Strojové učení: přístup umělé inteligence. 2. 193–214. ISBN 9780934613002.
- ^ Yeh, I-Cheng; Yang, King-Jang; Ting, Tao-Ming (2009). "Zjištění znalostí na modelu RFM pomocí Bernoulliho sekvence". Expertní systémy s aplikacemi. 36 (3): 5866–5871. doi:10.1016 / j.eswa.2008.07.018.
- ^ Lee, Wen-Chen; Cheng, Bor-Wen (2011). „Inteligentní systém pro zlepšení výkonu dárcovství krve“. Journal of Quality Vol. 18 (2): 173.
- ^ Schmidtmann, Irene a kol. "Evaluation des Krebsregisters NRW Schwerpunkt Record Linkkage." Abschlußbericht vom 11 (2009).
- ^ Sariyar, Murat; Borg, Andreas; Pommerening, Klaus (2011). "Řízení rychlosti falešných shod v propojení záznamů pomocí teorie extrémní hodnoty". Časopis biomedicínské informatiky. 44 (4): 648–654. doi:10.1016 / j.jbi.2011.02.008. PMID 21352952.
- ^ Candillier, Laurent a Vincent Lemaire. "Návrh a analýza výzvy Nomao Aktivní učení v reálném světě." Sborník ALRA: Aktivní učení v reálných aplikacích, Workshop ECML-PKDD. 2012.
- ^ Marquez, Ivan Garrido. "Metoda přizpůsobení domény pro klasifikaci textu založená na přizpůsobeném tréninkovém přístupu." (2013).
- ^ Nagesh, Harsha S., Sanjay Goil a Alok N. Choudhary. „Adaptive Grids for Clustering Massive Data Sets.“ SDM. 2001.
- ^ Kuzilek, Jakub a kol. "OU Analyze: analýza rizikových studentů na The Open University." Recenze Learning Analytics (2015): 1–16.
- ^ Siemens, George a kol. Open Learning Analytics: integrovaná a modularizovaná platforma. Diss. Open University Press, 2011.
- ^ Barlacchi, Gianni; De Nadai, Marco; Larcher, Roberto; Casella, Antonio; Chitic, Cristiana; Torrisi, Giovanni; Antonelli, Fabrizio; Vespignani, Alessandro; Pentland, Alex; Lepri, Bruno (2015). „Vícezdrojová datová sada městského života ve městě Milán a provincii Trentino“. Vědecké údaje. 2: 150055. Bibcode:2015NatSD ... 250055B. doi:10.1038 / sdata.2015.55. ISSN 2052-4463. PMC 4622222. PMID 26528394.
- ^ Vanschoren J, van Rijn JN, Bischl B, Torgo L (2013). "OpenML: síťová věda ve strojovém učení". Průzkumy SIGKDD. 15 (2): 49–60. arXiv:1407.7722. doi:10.1145/2641190.2641198. S2CID 4977460.
- ^ Olson RS, La Cava W, Orzechowski P, Urbanowicz RJ, Moore JH (2017). „PMLB: velká srovnávací sada pro hodnocení a srovnání strojového učení“. Těžba biodat. 10: 36. arXiv:1703.00512. Bibcode:2017arXiv170300512O. doi:10.1186 / s13040-017-0154-4. PMC 5725843. PMID 29238404.