Krásná polévka (analyzátor HTML) - Beautiful Soup (HTML parser)

Krásná polévka
Původní autořiLeonard Richardson
První vydání2004 (2004)
Stabilní uvolnění
4.9.1 / 17. května 2020; před 6 měsíci (2020-05-17)
Úložiště Upravte to na Wikidata
NapsánoKrajta
PlošinaKrajta
TypHTML parser knihovna, Škrábání webu
LicenceLicence Python Software Foundation (Krásná polévka 3 - starší verze) Licence MIT 4+[1]
webová stránkawww.mizerný.com/software/ Krásná polévka/

Krásná polévka je Krajta balíček pro analýzu HTML a XML dokumenty (včetně nesprávného označení, tj. neuzavřených značek, pojmenovaných po nich tag polévka ). Vytvoří analyzovaný strom pro analyzované stránky, který lze použít k extrakci dat z HTML,[2] což je užitečné pro škrábání webu.[1]

Nádhernou polévku založil Leonard Richardson, který do projektu nadále přispívá,[3] a je navíc podporován Tideliftem, placeným předplatným údržby open-source.[4]

Je k dispozici pro Python 2.7 a Python 3.

Příklad kódu

#! / usr / bin / env python3# Extrakce ukotvení z dokumentu HTMLz bs4 import Krásná polévkaz urllib.request import urlopens urlopen(„https://en.wikipedia.org/wiki/Main_Page“) tak jako Odezva:    polévka = Krásná polévka(Odezva, 'html.parser')    pro Kotva v polévka.najít_všechno('A'):        tisk(Kotva.dostat('href', '/'))

Výhody a nevýhody

Tato tabulka shrnuje výhody a nevýhody každé knihovny parserů[1]

AnalyzátorTypické použitíVýhodyNevýhody
Pythonův html.parserBeautifulSoup (označení, "html.parser")
  • Středně rychle
  • Lenient (od Pythonu 2.7.3 a 3.2.)
  • Ne tak rychlý jako lxml, méně shovívavý než html5lib.
analyzátor HTML lxmlBeautifulSoup (označení, „lxml“)
  • Velmi rychle
  • Shovívavý
  • Externí závislost C.
analyzátor XML lxml

BeautifulSoup (označení, „lxml-xml“)
BeautifulSoup (označení, „xml“)

  • Velmi rychle
  • Jediný aktuálně podporovaný analyzátor XML
  • Externí závislost C.
html5libBeautifulSoup (označení, "html5lib")
  • Extrémně shovívavý
  • Analyzuje stránky stejným způsobem jako webový prohlížeč
  • Vytvoří platný HTML5
  • Velmi pomalý
  • Externí závislost Pythonu

Uvolnění

Beautiful Soup 3 byla oficiální vydávací řada Beautiful Soup od května 2006 do března 2012. Aktuální vydání je Krásná polévka 4.9.1 (17. května 2020). Krásnou polévku 4 můžete nainstalovat pomocí pip nainstalujte beautifulsoup4.

Viz také

Reference

  1. ^ A b C „Krásný web s polévkou“. Citováno 18. dubna 2012. Beautiful Soup je licencován za stejných podmínek jako samotný Python
  2. ^ Hajba, Gábor László (2018), Hajba, Gábor László (ed.), „Using Beautiful Soup“, Škrábání webových stránek pomocí Pythonu: Používání programu BeautifulSoup a Scrapy, Apress, s. 41–96, doi:10.1007/978-1-4842-3925-4_3, ISBN  978-1-4842-3925-4
  3. ^ „Kód: Leonard Richardson“. panel. Citováno 2020-09-19.
  4. ^ Tidelift. „beautifulsoup4 | pypi prostřednictvím předplatného Tidelift“. tidelift.com. Citováno 2020-09-19.