Nástroje a metody jazykové dokumentace - Language documentation tools and methods

Pole jazyková dokumentace v moderním kontextu zahrnuje komplexní a stále se vyvíjející sadu nástrojů a metod a studium a vývoj jejich používání - a zejména identifikaci a propagaci osvědčených postupů - lze považovat za podoblast jazyková dokumentace správně.[1] Mezi ně patří etické zásady a zásady záznamu, pracovní postupy a metody, hardwarové nástroje a softwarové nástroje.[2]

Zásady a pracovní postupy

Výzkumníci v jazykové dokumentaci často provádějí lingvistické práce v terénu, aby shromažďovali údaje, na nichž je jejich práce založena, a zaznamenávají audiovizuální soubory, které dokumentují použití jazyka v tradičních kontextech. Vzhledem k tomu, že prostředí, ve kterém se lingvistická práce v terénu často odehrává, může být logisticky náročná, ne každý typ záznamového nástroje je nezbytný nebo ideální a je třeba často dělat kompromisy mezi kvalitou, cenou a použitelností. Je také důležité představit si kompletní pracovní postup a zamýšlené výsledky; například pokud jsou vytvářeny video soubory, může být vyžadováno určité množství zpracování, aby se zvuková komponenta vystavila zpracování různými způsoby různými softwarovými balíčky.

Etika

Mnohá ​​nedávná diskuse a debata byly předmětem etických postupů v jazykové dokumentaci.[3] The Linguistic Society of America připravil Etické prohlášení a udržuje Blog o etické diskusi který je primárně zaměřen na etiku v kontextu jazykové dokumentace. Samotná morálka etických protokolů byla zpochybněna George van Driem.[4] Většina postgraduálních programů, které zahrnují určitou formu jazykové dokumentace a popisu, vyžaduje, aby výzkumní pracovníci předložili své navrhované protokoly interní institucionální revizní komisi, která zajišťuje etický výzkum. Účastníci by měli být minimálně informováni o procesu a zamýšleném použití nahrávek a dát zaznamenaný zvukový nebo písemný souhlas s tím, aby audiovizuální materiály byly použity pro lingvistické vyšetřování výzkumnými pracovníky. Mnoho účastníků bude chtít být jmenováno jako konzultanti, ale jiní nikoli - to určí, zda je třeba data anonymizovat nebo omezit přístup veřejnosti.

Datové formáty

Dodržování standardů pro formáty je zásadní pro interoperabilitu mezi softwarovými nástroji. Mnoho jednotlivých archivů nebo datových úložišť má své vlastní standardy a požadavky na data uložená na jejich serverech - znalost těchto požadavků by měla informovat o použité strategii sběru dat a používaných nástrojích a měla by být součástí plán správy dat vyvinutý před zahájením výzkumu. Níže jsou uvedeny některé příklady pokynů z dobře používaných úložišť:

Nejaktuálnější archivní standardy pro video používat MPEG-4 (H264) jako formát kódování nebo ukládání, který zahrnuje zvukový tok AAC (obvykle až 320 kbit / s). Zvuk kvalita archivu je minimálně WAV 44,1 kHz, 16 bitů.

Zásady záznamu

Protože dokumentace jazyků je často obtížná, protože mnoho jazyků, se kterými lingvisté pracují, je ohroženo (v blízké budoucnosti se jimi nemluví), doporučuje se nahrávat v nejvyšší možné kvalitě vzhledem k omezením zapisovače. U videa to znamená nahrávání v HD rozlišení (1080p nebo 720p) nebo vyšším, pokud je to možné, zatímco u zvuku to znamená nahrávání minimálně v nekomprimovaném PCM 44 100 vzorků za sekundu, 16bitové rozlišení. Pravděpodobně je však důležitější dobrá záznamová technika (izolace, výběr a použití mikrofonu, použití stativu k minimalizaci rozmazání) než rozlišení. Mikrofon, který poskytuje jasný záznam reproduktoru, který sděluje lidovou řeč (vysoký poměr signál / šum) ve formátu MP3 (možná prostřednictvím telefonu), je lepší než extrémně hlučný záznam ve formátu WAV, kde je slyšet pouze projíždějící auta. Aby bylo zajištěno, že lze získat dobré nahrávky, lingvisté by měli co nejvíce cvičit se svými záznamovými zařízeními a porovnávat výsledky, aby zjistili, které techniky přinášejí nejlepší výsledky.[5][2][6][7][8]

Pracovní postupy

Pro mnoho lingvistů je konečným výsledkem pořizování nahrávek jazyková analýza, často zkoumání fonologických nebo syntaktických vlastností jazyka pomocí různých softwarových nástrojů. To vyžaduje přepis zvuku, obvykle ve spolupráci s rodilými mluvčími daného jazyka. U obecného přepisu lze mediální soubory přehrávat na počítači (nebo jiném zařízení schopném přehrávat) a pozastavit je pro přepis v textovém editoru. Mezi další (multiplatformní) nástroje, které napomáhají tomuto procesu, patří Drzost a Přepisovatel, zatímco program jako ELÁN (popsáno dále níže) může také provádět tuto funkci.

Programy jako Panel nástrojů nebo FLEx jsou často preferovány lingvisty, kteří chtějí být schopni interlinearizovat jejich texty, protože tyto programy vytvářejí slovník formulářů a pravidel analýzy, aby pomohly urychlit analýzu. Bohužel, mediální soubory nejsou těmito programy propojeny (na rozdíl od ELANu, ve kterém jsou preferované propojené soubory), takže je obtížné prohlížet nebo poslouchat nahrávky a kontrolovat přepisy. Tady je aktuálně řešení pro Toolbox, který umožňuje časovým kódům odkazovat na zvukový soubor a umožňovat přehrávání (úplného textu nebo odkazované věty) z nástroje Toolbox - v tomto pracovním postupu se v aplikaci Transcriber provádí časové zarovnání textu a poté se příslušné časové kódy a text převedou do formátu, který Toolbox umí číst.

Hardware

Video + audio rekordéry

Rekordéry, které zaznamenávají video, obvykle také zaznamenávají zvuk. Zvuk však ne vždy splňuje kritéria minimálních potřeb a doporučených osvědčených postupů pro jazykovou dokumentaci (nekomprimovaný formát WAV, 44,1 kHz, 16 bitů) a často není vhodný pro jazykové účely, jako je fonetická analýza. Mnoho video zařízení místo toho nahrává do komprimovaného zvukového formátu, jako je AAC nebo MP3, který je kombinován s video streamem v obálce různé druhy. Výjimkou z tohoto obecného pravidla jsou následující rekordéry Video + Audio:

The Zvětšení série, zejména Q8, Q4n, a Q2n, které nahrávají do více video / audio rozlišení / formátů, zejména WAV (44,1 / 48/96 kHz, 16/24-bit).

Pokud používáte videorekordér, který nezaznamenává zvuk ve formátu WAV (například většina fotoaparátů DSLR), doporučuje se nahrávat zvuk samostatně na jiný rekordér, a to podle níže uvedených pokynů. Stejně jako u níže popsaných zvukových rekordérů přijímá mnoho videorekordérů také vstup mikrofonu různých druhů (obvykle prostřednictvím 1/8 palce nebo konektoru TRS) - to může zajistit vysoce kvalitní záložní zvukový záznam, který je synchronizován se zaznamenaným videem , což může být v některých případech užitečné (např. pro přepis).

Audio rekordéry a mikrofony

Rekordéry pouze se zvukem lze použít ve scénářích, kdy je video nepraktické nebo jinak nežádoucí. Ve většině případů je výhodné kombinovat použití pouze zvukového rekordéru s jedním nebo více externími mikrofony, avšak mnoho moderních zvukových rekordérů obsahuje vestavěné mikrofony, které jsou použitelné, pokud jsou důležité náklady nebo rychlost nastavení. Pro většinu scénářů dokumentace jazyka jsou upřednostňovány digitální (solid state) zapisovače. Moderní digitální rekordéry dosahují velmi vysoké úrovně kvality za relativně nízkou cenu. Některé z nejpopulárnějších polních rekordérů najdete v Zvětšení rozsah, včetně H1, H2, H4, H5 a H6. The H1 je zvláště vhodný v situacích, kdy jsou hlavní výhodou cena a uživatelská přívětivost. Další populární rekordéry pro situace, kde je velikost faktorem, jsou Řada Olympus LS a Digitální hlasové záznamníky Sony (i když v druhém případě zajistěte, aby zařízení mohlo nahrávat do formátu WAV / Lineární PCM).

Několik typů mikrofon lze efektivně použít ve scénářích jazykové dokumentace v závislosti na situaci (zejména včetně faktorů, jako je počet, pozice a mobilita mluvčích) a na rozpočtu. Obecně, kondenzátorové mikrofony by měl být vybrán spíše než dynamické mikrofony. Ve většině situací v terénu je výhodou, když je kondenzátorový mikrofon napájen vlastním proudem (z baterie); pokud však výkon není hlavním faktorem, lze také použít modely napájené fantomem. Nastavení stereofonního mikrofonu je nutné, kdykoli je do záznamu zapojen více než jeden reproduktor; toho lze dosáhnout pomocí řady dvou mono mikrofonů nebo pomocí vyhrazeného stereofonního mikrofonu.

Ve většině případů by měly být použity směrové mikrofony, aby se izoloval hlas mluvčího od ostatních potenciálních zdrojů hluku. Všesměrové mikrofony však mohou být výhodné v situacích zahrnujících větší počet reproduktorů uspořádaných v relativně velkém prostoru. Mezi směrovými mikrofony kardioidní mikrofony jsou vhodné pro většinu aplikací, avšak v některých případech a hyperkardioidní Může být upřednostňován mikrofon („brokovnice“).

Kvalitní náhlavní mikrofony jsou poměrně drahé, ale v kontrolovaných situacích mohou vytvářet nahrávky extrémně vysoké kvality.[9] Lavalier nebo „klopové“ mikrofony mohou být v některých situacích použity, avšak v závislosti na mikrofonu mohou pro fonetickou analýzu vytvářet nahrávky, které jsou horší než mikrofon náhlavní soupravy, a podléhají stejným problémům, jaké mikrofony náhlavní soupravy představují záznamu do jednoho reproduktoru - zatímco ostatní reproduktory mohou být na záznamu slyšet, budou na pozadí ve vztahu k reproduktoru s mikrofonem lavalier.[10]

Některé kvalitní mikrofony používané pro natáčení filmů a rozhovory zahrnují Brokovnice Røde VideoMic a série Røde lavalier, Shure headworn mikrofony a Shure lavaliers. V závislosti na rekordéru a mikrofonu další kabely (XLR, stereo / mono převodník nebo a Adaptér TRRS na TRS ) bude nutné.

Další záznamové nástroje

Výroba, skladování a správa elektrické energie

Počítačové systémy

Příslušenství

Software

Dosud neexistuje žádná jednotlivá softwarová sada, která by byla navržena nebo schopna zvládnout všechny aspekty typického pracovního postupu dokumentace jazyka. Místo toho existuje velký a rostoucí počet balíčků určených ke zpracování různých aspektů pracovního postupu, z nichž mnohé se značně překrývají. Některé z těchto balíčků používají standardní formáty a jsou interoperabilní, zatímco jiné jsou mnohem méně.

Řekni více

Řekni více je balíček jazykové dokumentace vyvinutý společností SIL International v Dallas který se primárně zaměřuje na počáteční fáze jazykové dokumentace a usiluje o relativně nekomplikovanou uživatelskou zkušenost.

Primární funkce SayMore jsou: (a) zvukový záznam (b) import souborů ze záznamového zařízení (video a / nebo zvuk) (c) organizace souborů (d) zadávání metadat na úrovni relace a souborů (e) přidružení AV souborů k důkazy o informovaném souhlasu a dalších doplňkových objektech (například fotografie) (f) segmentace AV souborů (g) přepis / překlad (h) TUČNĚ stylová anotace řeči a ústní překlad.

Soubory SayMore lze dále exportovat pro poznámky v FLEx a metadata lze exportovat do .csv a IMDI formáty pro archivaci.

ELÁN

ELÁN je vyvinut společností Jazykový archiv na Max Planck Institute for Psycholinguistics v Nijmegen. ELAN je plnohodnotný transkripční nástroj, zvláště užitečný pro výzkumníky se složitými anotačními potřebami / cíli.

FLEx

FieldWorks Language Explorer, FLEx je vyvinut společností SIL International dříve Summer Institute of Linguistics, Inc. na SIL International v Dallas. FLEx umožňuje uživateli sestavit „lexikon“ jazyka, tj. Seznam slov s definicemi a gramatickými informacemi, a také ukládat texty z jazyka. V textech je každé slovo nebo část slova (tj. „Morfém“) spojeno se záznamem v lexikonu. Pro nové projekty a pro studenty, kteří se učí poprvé, FLEx je nyní nejlepším nástrojem pro interlinearizaci a tvorbu slovníků.

Panel nástrojů

Sada nástrojů polního lingvisty (obvykle nazývaný Toolbox) je předchůdcem FLEx a je již několik desetiletí jedním z nejpoužívanějších jazykových dokumentačních balíčků. Dříve známé jako Botník „Primárními funkcemi Toolboxu je konstrukce lexikální databáze a interlinearizace textů prostřednictvím interakce s lexikální databází. Lexikální databázi i texty lze exportovat do prostředí textového editoru, v případě lexikální databáze pomocí Multi-Dictionary Formatter (MDF ) nástroj pro převod. Je také možné použít Toolbox jako prostředí pro přepis.[11] Ve srovnání s ELAN a FLEx má Toolbox relativně omezenou funkčnost a někteří se domnívají, že mají neintuitivní design a rozhraní. V prostředí Shoebox / Toolbox však bylo během jeho životnosti provedeno velké množství projektů a jeho uživatelská základna si i nadále užívá svých výhod známosti, rychlosti a podpory komunity. Toolbox má také tu výhodu, že pracuje přímo s textovými soubory čitelnými člověkem, které lze otevřít v libovolném textovém editoru a snadno s nimi manipulovat a archivovat je. Soubory nástrojů lze také snadno převést na úložiště v XML (doporučeno pro archivy), například s otevřenými zdrojovými knihovnami Pythonu, jako jsou Xigt určené pro výpočetní využití dat IGT.

Nástroje pro automatizaci součástí pracovního toku

Jazyková dokumentace může být částečně automatizovaná díky řadě softwarových nástrojů, včetně:

Literatura

Recenzovaný deník Jazyková dokumentace a konzervace publikoval velké množství článků zaměřených na nástroje a metody v jazykové dokumentaci.

Viz také

Mapa LRE Mapa jazykových zdrojů Vyhledávání podle typu zdroje, jazyků, typů jazyků, modality, využití zdrojů, dostupnosti, stavu výroby, konference, názvu zdroje

Katalog GitHub Richarda Littauera Katalog „open-source kódu, který by byl užitečný pro dokumentaci, konzervování, vývoj, konzervování nebo práci s ohroženými jazyky“.

Stránka softwaru RNLD Stránka Research Network for Linguistic Diversity o lingvistickém softwaru.

Reference

  1. ^ „Summit LD Tools“. sites.google.com. Citováno 2016-06-02.
  2. ^ A b Bowern, Claire (2008). Jazyková práce v terénu - Springer. doi:10.1057/9780230590168. ISBN  978-0-230-54538-0.
  3. ^ Austin, Peter K. 2010. „Komunity, etika a práva na jazykovou dokumentaci.“ V Peter K. Austin, ed., Jazyková dokumentace a popis Vol 7. Londýn, SOAS: 34-54.
  4. ^ van Driem, George (2016). „Výzkum ohrožených jazyků a morální zkaženost etických protokolů“. Jazyková dokumentace a konzervace 10: 243-252. hdl:10125/24693.
  5. ^ Ladefoged, Peter (2003). Fonetická analýza dat: úvod do terénních a instrumentálních technik. Malden, MA: Blackwell Pub. ISBN  978-0631232698. OCLC  51818554.
  6. ^ Chelliah, Shobhana L .; de Reuse, Willem J. (2011). Příručka deskriptivní lingvistické práce v terénu. doi:10.1007/978-90-481-9026-3. ISBN  978-90-481-9025-6.
  7. ^ Meakins, Felicity; Zelená, Jennifer; Turpin, Myfany (2018). Porozumění lingvistické práci v terénu. Londýn. ISBN  9781351330114. OCLC  1029352513.
  8. ^ Thieberger, Nicholas, ed. (2011-11-24). Oxfordská příručka lingvistické práce v terénu. Oxford University Press. doi:10.1093 / oxfordhb / 9780199571888.001.0001. ISBN  9780191744112.
  9. ^ Švec, Jan G .; Granqvist, Svante (01.11.2010). „Pokyny pro výběr mikrofonů pro výzkum produkce lidského hlasu“. American Journal of Speech-Language Pathology. 19 (4): 356–368. doi:10.1044/1058-0360(2010/09-0091). ISSN  1058-0360. PMID  20601621.
  10. ^ Brixen, Eddy (01.05.1996). „Spektrální degradace řeči zachycené miniaturními mikrofony připevněnými na hlavách a hrudi osob“. Konvence společnosti Audio Engineering Society 100.
  11. ^ Margetts, Andrew (2009). "Používání Toolboxu s mediálními soubory". Jazyková dokumentace a konzervace. 3 (1): 51–86. hdl:10125/4426.