Krásná polévka (analyzátor HTML) - Beautiful Soup (HTML parser)
Původní autoři | Leonard Richardson |
---|---|
První vydání | 2004 |
Stabilní uvolnění | 4.9.1 / 17. května 2020 |
Úložiště | ![]() |
Napsáno | Krajta |
Plošina | Krajta |
Typ | HTML parser knihovna, Škrábání webu |
Licence | Licence Python Software Foundation (Krásná polévka 3 - starší verze) Licence MIT 4+[1] |
webová stránka | www |
Krásná polévka je Krajta balíček pro analýzu HTML a XML dokumenty (včetně nesprávného označení, tj. neuzavřených značek, pojmenovaných po nich tag polévka ). Vytvoří analyzovaný strom pro analyzované stránky, který lze použít k extrakci dat z HTML,[2] což je užitečné pro škrábání webu.[1]
Nádhernou polévku založil Leonard Richardson, který do projektu nadále přispívá,[3] a je navíc podporován Tideliftem, placeným předplatným údržby open-source.[4]
Je k dispozici pro Python 2.7 a Python 3.
Příklad kódu
#! / usr / bin / env python3# Extrakce ukotvení z dokumentu HTMLz bs4 import Krásná polévkaz urllib.request import urlopens urlopen(„https://en.wikipedia.org/wiki/Main_Page“) tak jako Odezva: polévka = Krásná polévka(Odezva, 'html.parser') pro Kotva v polévka.najít_všechno('A'): tisk(Kotva.dostat('href', '/'))
Výhody a nevýhody
Tato tabulka shrnuje výhody a nevýhody každé knihovny parserů[1]
Analyzátor | Typické použití | Výhody | Nevýhody |
---|---|---|---|
Pythonův html.parser | BeautifulSoup (označení, "html.parser") |
|
|
analyzátor HTML lxml | BeautifulSoup (označení, „lxml“) |
|
|
analyzátor XML lxml | BeautifulSoup (označení, „lxml-xml“) |
|
|
html5lib | BeautifulSoup (označení, "html5lib") |
|
|
Uvolnění
Beautiful Soup 3 byla oficiální vydávací řada Beautiful Soup od května 2006 do března 2012. Aktuální vydání je Krásná polévka 4.9.1 (17. května 2020). Krásnou polévku 4 můžete nainstalovat pomocí pip nainstalujte beautifulsoup4
.
Viz také
Reference
- ^ A b C „Krásný web s polévkou“. Citováno 18. dubna 2012.
Beautiful Soup je licencován za stejných podmínek jako samotný Python
- ^ Hajba, Gábor László (2018), Hajba, Gábor László (ed.), „Using Beautiful Soup“, Škrábání webových stránek pomocí Pythonu: Používání programu BeautifulSoup a Scrapy, Apress, s. 41–96, doi:10.1007/978-1-4842-3925-4_3, ISBN 978-1-4842-3925-4
- ^ „Kód: Leonard Richardson“. panel. Citováno 2020-09-19.
- ^ Tidelift. „beautifulsoup4 | pypi prostřednictvím předplatného Tidelift“. tidelift.com. Citováno 2020-09-19.
![]() | Tento počítačová knihovna související článek je a pahýl. Wikipedii můžete pomoci pomocí rozšiřovat to. |