Nejbližší klasifikátor těžiště - Nearest centroid classifier - Wikipedia

Rocchio klasifikace
v strojové učení, a nejbližší klasifikátor těžiště nebo nejbližší klasifikátor prototypu je klasifikační model který přiřazuje pozorování štítek třídy tréninkových vzorků, jejichž znamenat (těžiště ) je nejblíže pozorování.
Při aplikaci na klasifikace textu použitím tf * idf vektory reprezentující dokumenty, je nejbližší klasifikátor těžiště známý jako Rocchio klasifikátor kvůli své podobnosti s Rocchioův algoritmus pro relevantní zpětná vazba.[1]
Rozšířená verze nejbližšího klasifikátoru těžiště našla aplikace v lékařské oblasti, konkrétně klasifikaci nádory.[2]
Algoritmus
- Procedura školení: dané označené tréninkové vzorky se štítky třídy , spočítat centroidy pro jednotlivé třídy kde je sada indexů vzorků patřících do třídy .
- Funkce predikce: třída přiřazená k pozorování je .
Viz také
- Clusterová hypotéza
- k- znamená shlukování
- k- algoritmus nejbližšího souseda
- Lineární diskriminační analýza
Reference
- ^ Manning, Christopher; Raghavan, Prabhakar; Schütze, Hinrich (2008). Msgstr "Klasifikace vektorového prostoru". Úvod do získávání informací. Cambridge University Press.
- ^ Tibshirani, Robert; Hastie, Trevor; Narasimhan, balasubramanian; Chu, Gilbert (2002). „Diagnostika mnoha typů rakoviny zmenšenými centroidy genové exprese“. Sborník Národní akademie věd. 99 (10): 6567–6572. doi:10.1073 / pnas.082099299. PMC 124443. PMID 12011421.