Seq2seq - Seq2seq
Seq2seq je rodina strojové učení přístupy používané ke zpracování jazyka.[1] Mezi aplikace patří jazykový překlad, titulky, konverzační modely a shrnutí textu.[2]
Dějiny
Algoritmus byl vyvinut společností Google pro použití v strojový překlad.[2]
V roce 2019 Facebook oznámila své použití v roce 2006 symbolická integrace a rozlišení z diferenciální rovnice. Společnost tvrdila, že dokáže řešit složité rovnice rychleji a s větší přesností než komerční řešení jako např Mathematica, MATLAB a Javor. Nejprve je rovnice analyzována do stromové struktury, aby se zabránilo notovým výstřednostem. Neuronová síť LSTM poté použije svůj standard rozpoznávání vzorů zařízení pro zpracování stromu.[3]
V roce 2020 společnost Google vydala 2,6 miliardy Meena parametr založené na seq2seq chatbot vyškoleni na datové sadě 341 GB. Google tvrdil, že chatbot má 1,7krát větší kapacitu modelu než OpenAI GPT-2,[4] jehož nástupce v květnu 2020, parametr 175 miliard GPT-3, vyškoleni na „45TB datové sadě holých textů (45 000 GB), která byla ... filtrována na 570 GB.“[5]
Technika
Seq2seq změní jednu sekvenci na jinou sekvenci. Činí tak pomocí a rekurentní neuronová síť (RNN) nebo častěji LSTM nebo GRU vyhnout se problému mizející přechod. Kontext pro každou položku je výstup z předchozího kroku. Primární komponenty jsou jeden kodér a jedna síť dekodéru. Kodér změní každou položku na odpovídající skrytý vektor obsahující položku a její kontext. Dekodér obrátí proces a přemění vektor na výstupní položku, přičemž jako vstupní kontext použije předchozí výstup.[2]
Optimalizace zahrnují:[2]
- Pozor: Vstup do dekodéru je jediný vektor, který ukládá celý kontext. Pozornost umožňuje dekodéru dívat se na vstupní sekvenci selektivně.
- Vyhledávání paprsků: Místo výběru jediného výstupu (slova) jako výstupu je zachováno několik vysoce pravděpodobných možností, strukturovaných jako strom (pomocí Softmax na souboru skóre pozornosti[6]). Průměruje stavy kodéru vážené distribucí pozornosti.[6]
- Bucketing: Sekvence s proměnnou délkou jsou možné kvůli polstrování s 0s, které lze provést jak na vstupu, tak na výstupu. Pokud je však délka sekvence 100 a vstup má pouze 3 položky, je to zbytečné drahé místo. Vědra mohou mít různé velikosti a mohou specifikovat vstupní i výstupní délky.
Cvičení obvykle využívá křížovou entropii funkce ztráty, přičemž jeden výstup je penalizován do té míry, že pravděpodobnost následného výstupu je menší než 1.[6]
Související software
Software využívající podobné přístupy zahrnuje OpenNMT (Pochodeň ), Neural Monkey (TensorFlow ) a NEMATUS (Theano ).[7]
Viz také
Reference
- ^ Sutskever, Ilya; Vinyals, Oriol; Le, Quoc Viet (2014). "Posloupnost sekvenčního učení pomocí neuronových sítí". arXiv:1409.3215 [cs.CL ].
- ^ A b C d Wadhwa, Mani (05.12.2018). „model seq2seq ve strojovém učení“. GeeksforGeeks. Citováno 2019-12-17.
- ^ „Facebook má neurální síť, která umí pokročilou matematiku“. Recenze technologie MIT. 17. prosince 2019. Citováno 2019-12-17.
- ^ Mehta, Ivan (2020-01-29). „Google tvrdí, že jeho nový chatbot Meena je nejlepší na světě“. Další web. Citováno 2020-02-03.
- ^ Gage, Justine. „Co je GPT-3?“. Citováno 1. srpna 2020.
- ^ A b C Hewitt, John; Kriz, Reno (2018). "Sekvenční 2 sekvenční modely" (PDF). Stanfordská Univerzita.
- ^ "Overview - seq2seq". google.github.io. Citováno 2019-12-17.
externí odkazy
- „Desetiminutový úvod do učení sekvence za sekvencí v systému Keras“. blog.keras.io. Citováno 2019-12-19.
- Dugar, Pranay (2019-11-24). „Pozor - modely Seq2Seq“. Střední. Citováno 2019-12-19.
- Nag, Dev (2019-04-24). „seq2seq: klaunský vůz hlubokého učení“. Střední. Citováno 2019-12-19.
- Adiwardana, Daniel; Luong, Minh-Thang; David R .; Hall, Jamie; Fiedel, Noah; Thoppilan, Romal; Yang, Zi; Kulshreshtha, Apoorv; Nemade, Gaurav; Lu, Yifeng; Le, Quoc V. (2020-01-31). "Směrem k člověku podobnému chatbotu v otevřené doméně". arXiv:2001.09977 [cs.CL ].