Diarizace reproduktorů - Speaker diarisation
![]() | tento článek potřebuje další citace pro ověření.Leden 2012) (Zjistěte, jak a kdy odstranit tuto zprávu šablony) ( |
Diarizace reproduktorů (nebo diarizace) je proces rozdělení vstupního zvukového proudu na homogenní segmenty podle identity mluvčího. Může zlepšit čitelnost souboru automatický přepis řeči strukturováním zvukového proudu do otáček reproduktorů a při použití společně s rozpoznávání reproduktorů systémy tím, že poskytuje skutečnou identitu mluvčího.[1] Používá se k zodpovězení otázky „kdo kdy mluvil?“[2]Diarizace reproduktorů je kombinací segmentace reproduktorů a jejich seskupování. První je zaměřen na nalezení bodů pro změnu reproduktoru ve zvukovém proudu. Druhá má za cíl seskupit segmenty řeči na základě charakteristik mluvčích.
S rostoucím počtem vysílání, nahrávek schůzek a hlasové pošty, které se každoročně shromažďují, se diarizaci řečníků dostalo velké pozornosti řečové komunity, což se projevuje konkrétními hodnoceními, která se jí věnují pod záštitou Národní institut pro standardy a technologie pro telefonický projev, vysílání zpráv a schůzky.[3]
Hlavní typy diarizačních systémů
V diarizaci řečníků je jednou z nejpopulárnějších metod použití a Gaussův model směsi modelovat každý z reproduktorů a přiřadit odpovídající rámečky každému reproduktoru pomocí a Skrytý Markovův model. Existují dva hlavní druhy klastrového scénáře. První z nich je zdaleka nejoblíbenější a jmenuje se Bottom-Up. Algoritmus začíná rozdělením celého zvukového obsahu do řady klastrů a postupně se pokouší sloučit nadbytečné klastry, aby dosáhl situace, kdy každý klastr odpovídá skutečnému řečníkovi. Nazývá se druhá klastrovací strategie vzhůru nohama a začíná jedním jediným klastrem pro všechna zvuková data a pokouší se je iterativně rozdělit, dokud nedosáhne počtu klastrů rovných počtu reproduktorů. Recenze z roku 2010 najdete na [1]
Software pro diarizaci reproduktorů s otevřeným zdrojovým kódem
Existuje několik iniciativ otevřeného zdroje pro diariazaci řečníků:
- ALIZE Diarizace reproduktorů (poslední aktualizace úložiště: červenec 2016; poslední vydání: únor 2013, verze: 3.0): ALIZE Diarization System, vyvinutý na University Of Avignon, je k dispozici verze 2.0 [2].
- SpkDiarizace (poslední vydání: září 2013, verze: 8.4.1): nástroj LIUM_SpkDiarization [3].
- Audioseg (poslední aktualizace úložiště: květen 2014; poslední vydání: leden 2010, verze: 1.2): AudioSeg je sada nástrojů věnovaná segmentaci zvuku a klasifikaci zvukových proudů. [4].
- Křičet (poslední aktualizace: prosinec 2010; verze: 0.3): SHoUT je softwarový balíček vyvinutý na University of Twente za účelem podpory výzkumu rozpoznávání řeči. SHoUT je holandská zkratka pro Výzkum rozpoznávání řeči na University of Twente. [5]
- pyAudioAnalysis (poslední aktualizace úložiště: srpen 2018): Python Audio Analysis Library: Extrakce funkcí, klasifikace, segmentace a aplikace [6]
Reference
- ^ Zhu, Xuan; Barras, Claude; Meignier, Sylvain; Gauvain, Jean-Luc. „Vylepšená diarizace reproduktorů pomocí identifikace reproduktorů“. Citováno 2012-01-25.
- ^ Kotti, Margarita; Moschou, Vassiliki; Kotropoulos, Constantine. „Segmentace a shlukování reproduktorů“ (PDF). Citováno 2012-01-25.
- ^ „Bohatý projekt hodnocení transkripce“. NIST. Citováno 2012-01-25.
Bibliografie
- Anguera, Xavier (2012). „Diarizace řečníka: přehled nedávného výzkumu“. Transakce IEEE na zpracování zvuku, řeči a jazyka. Transakce IEEE / ACM na zpracování zvuku, řeči a jazyka. 20 (2): 356–370. CiteSeerX 10.1.1.470.6149. doi:10.1109 / TASL.2011.2125954. ISSN 1558-7916.
- Beigi, Homayoon (2011). Základy rozpoznávání mluvčích. New York: Springer. ISBN 978-0-387-77591-3.