BERT (jazykový model) - BERT (language model)

Reprezentace obousměrného kodéru od transformátorů (BERT) je Transformátor -na základě strojové učení technika pro zpracování přirozeného jazyka (NLP) pre-training developed by Google. BERT vytvořil a publikoval v roce 2018 Jacob Devlin a jeho kolegové ze společnosti Google.[1][2] Od roku 2019„Google využívá BERT k lepšímu porozumění vyhledávání uživatelů.[3]

Původní model BERT v angličtině přichází se dvěma předem vyškolenými obecnými typy:[1] (1) BERTZÁKLADNA model, 12vrstvá, 768 skrytých, 12 hlav, 110M parametrická architektura neuronové sítě a (2) BERTVELKÝ model, 24vrstvá, 1024 skrytá, 16 hlav, 340M parametrická architektura neuronové sítě; oba byli vyškoleni na BooksCorpus[4] s 800 miliony slov a verzí Anglická Wikipedia s 2 500 miliony slov.

Výkon

Když byl BERT zveřejněn, dosáhl nejmodernější výkon na řadě porozumění přirozenému jazyku úkoly:[1]

Analýza

Důvody pro BERT nejmodernější výkon na nich porozumění přirozenému jazyku úkoly dosud nejsou dobře pochopeny.[5][6] Současný výzkum se zaměřil na zkoumání vztahu za výstupem BERT v důsledku pečlivě vybraných vstupních sekvencí,[7][8] analýza interních vektorové reprezentace prostřednictvím sondovacích klasifikátorů,[9][10] a vztahy představované Pozornost závaží.[5][6]

Dějiny

BERT má původ v předvýcviku kontextových reprezentací včetně Sekvenční učení s částečným dohledem,[11] Generativní předškolení, ELMo,[12] a ULMFit.[13] Na rozdíl od předchozích modelů je BERT hluboce obousměrný, bezobslužná jazyková reprezentace, předem vyškolený s využitím pouze korpusu prostého textu. Bezkontextové modely jako např word2vec nebo Rukavice vygenerovat pro každé slovo ve slovníku reprezentaci pro vložení jednoho slova, kde BERT zohlední kontext pro každý výskyt daného slova. Například zatímco vektor pro „běh“ bude mít stejnou vektorovou reprezentaci word2vec pro oba jeho výskyty ve větách „Provozuje společnost“ a „Provozuje maraton“, BERT poskytne kontextové vložení, které bude různé podle věty.

25. října 2019 Google vyhledávání oznámili, že začali používat modely BERT pro anglický jazyk vyhledávací dotazy v rámci NÁS.[14] 9. prosince 2019 bylo oznámeno, že BERT byl přijat Vyhledáváním Google ve více než 70 jazycích.[15] V říjnu 2020 zpracoval BERT téměř každý jednotlivý anglický dotaz.[16]

Uznání

BERT získal Cenu za nejlepší dlouhý papír na výroční konferenci severoamerické kapitoly USA v roce 2019 Sdružení pro výpočetní lingvistiku (NAACL).[17]

Viz také

Reference

  1. ^ A b C Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (11. října 2018). „BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding“. arXiv:1810.04805v2 [cs.CL ].
  2. ^ „Open Sourcing BERT: Nejmodernější předškolení pro zpracování přirozeného jazyka“. Blog Google AI. Citováno 2019-11-27.
  3. ^ „Pochopení vyhledávání lépe než kdy dříve“. Google. 2019-10-25. Citováno 2019-11-27.
  4. ^ Zhu, Yukun; Kiros, Ryan; Zemel, bohatý; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja (2015). „Zarovnání knih a filmů: Směrem k podobným vizuálním vysvětlením sledováním filmů a čtením knih“. 19–27. arXiv:1506.06724 [cs.CV ].
  5. ^ A b Kovaleva, Olga; Romanov, Alexey; Rogers, Anna; Rumshisky, Anna (listopad 2019). „Odhalení temných tajemství BERT“. Sborník konference z roku 2019 o empirických metodách ve zpracování přirozeného jazyka a 9. mezinárodní společné konference o zpracování přirozeného jazyka (EMNLP-IJCNLP). 4364–4373. doi:10.18653 / v1 / D19-1445. S2CID  201645145.
  6. ^ A b Clark, Kevin; Khandelwal, Urvashi; Levy, Omer; Manning, Christopher D. (2019). „Na co se BERT dívá? Analýza pozornosti BERT“. Sborník semináře ACL 2019 BlackboxNLP: Analýza a interpretace neuronových sítí pro NLP. Stroudsburg, PA, USA: Association for Computational Linguistics: 276–286. doi:10.18653 / v1 / w19-4828.
  7. ^ Khandelwal, Urvashi; On, On; Qi, Peng; Jurafsky, Dan (2018). „Ostré okolí, nejasné daleko: Jak modely neurálních jazyků používají kontext“. Sborník z 56. výročního zasedání Asociace pro počítačovou lingvistiku (svazek 1: Dlouhé příspěvky). Stroudsburg, PA, USA: Association for Computational Linguistics: 284–294. arXiv:1805.04623. Bibcode:2018arXiv180504623K. doi:10.18653 / v1 / p18-1027. S2CID  21700944.
  8. ^ Gulordava, Kristina; Bojanowski, Piotr; Grave, Edouard; Linzen, Tal; Baroni, Marco (2018). „Bezbarvé zelené opakující se sítě hierarchicky sní.“ Sborník příspěvků z konference severoamerické kapitoly Asociace pro výpočetní lingvistiku z roku 2018: Human Language Technologies, díl 1 (Long Papers). Stroudsburg, PA, USA: Association for Computational Linguistics: 1195–1205. arXiv:1803.11138. Bibcode:2018arXiv180311138G. doi:10.18653 / v1 / n18-1108. S2CID  4460159.
  9. ^ Giulianelli, Mario; Harding, Jacku; Mohnert, Florian; Hupkes, Dieuwke; Zuidema, Willem (2018). „Under the Hood: Using Diagnostic Classifiers to Investigate and Improve how Language Models Track Information Information“. Sborník semináře EMNLP z roku 2018 BlackboxNLP: Analýza a interpretace neuronových sítí pro NLP. Stroudsburg, PA, USA: Association for Computational Linguistics: 240–248. arXiv:1808.08079. Bibcode:2018arXiv180808079G. doi:10.18653 / v1 / w18-5426. S2CID  52090220.
  10. ^ Zhang, Kelly; Bowman, Samuel (2018). „Jazykové modelování vás naučí víc než překlad: lekce získané pomocí pomocné syntaktické analýzy úkolů“. Sborník semináře EMNLP z roku 2018 BlackboxNLP: Analýza a interpretace neuronových sítí pro NLP. Stroudsburg, PA, USA: Association for Computational Linguistics: 359–361. doi:10.18653 / v1 / w18-5448.
  11. ^ Dai, Andrew; Le, Quoc (4. listopadu 2015). „Semi-supervised Sequence Learning“. arXiv:1511.01432 [cs.LG ].
  12. ^ Peters, Matthew; Neumann, Mark; Iyyer, Mohit; Gardner, Matt; Clark, Christopher; Lee, Kenton; Luke, Zettlemoyer (15. února 2018). "Hluboké kontextové reprezentace slov". arXiv:1802.05365v2 [cs.CL ].
  13. ^ Howard, Jeremy; Ruder, Sebastian (18. ledna 2018). "Univerzální jazykový model Jemné doladění pro klasifikaci textu". arXiv:1801.06146v5 [cs.CL ].
  14. ^ Nayak, Pandu (25. října 2019). „Pochopení vyhledávání lépe než kdy dříve“. Blog Google. Citováno 10. prosince 2019.
  15. ^ Montti, Roger (10. prosince 2019). „BERT společnosti Google se rozvíjí po celém světě“. Deník vyhledávače. Deník vyhledávače. Citováno 10. prosince 2019.
  16. ^ „Google: BERT se nyní používá téměř u každého anglického dotazu“. Země vyhledávače. 2020-10-15. Citováno 2020-11-24.
  17. ^ „Ocenění za nejlepší papír“. NAACL. 2019. Citováno 28. března 2020.

Další čtení

  • Rogers, Anna; Kovaleva, Olga; Rumshisky, Anna (2020). „Primer v BERTology: Co víme o tom, jak funguje BERT“. arXiv:2002.12327. Citovat deník vyžaduje | deník = (Pomoc)

externí odkazy