Kanonizace - Canonicalization

v počítačová věda, kanonizace (někdy standardizace nebo normalizace) je proces převodu data který má více než jednu možnou reprezentaci do "standardu", "normálu" nebo kanonická forma. To lze provést k porovnání různých reprezentací ekvivalence, k počítání počtu odlišných datových struktur, ke zlepšení účinnosti různých algoritmy vyloučením opakovaných výpočtů nebo umožněním smysluplného zavedení třídění objednat.

Případy použití

Názvy souborů

Soubory v souborové systémy ve většině případů lze přistupovat prostřednictvím více názvy souborů. Například v Unix -jako systémy, řetězec "/./„lze nahradit“/". V C standardní knihovna, funkce realpath () provádí tento úkol. Další operace prováděné touto funkcí pro kanonizaci názvů souborů jsou zpracování /.. komponenty odkazující na nadřazené adresáře, zjednodušení sekvencí více lomítek, odstranění koncových lomítek a rozlišení symbolické odkazy.

Kanonizace souborů je důležitá pro bezpečnost počítače. Například webový server může mít omezení, že pouze soubory v adresáři cgi C: inetpub wwwroot cgi-bin lze provést. Toto pravidlo je vynuceno kontrolou, že cesta začíná C: inetpub wwwroot cgi-bin a teprve poté to provedete. Zatímco soubor C: inetpub wwwroot cgi-bin .. .. .. Windows System32 cmd.exe zpočátku se zdá být v adresáři cgi, využívá .. specifikátor cesty k procházení zpět do hierarchie adresářů při pokusu o spuštění souboru mimo cgi-bin. Povolení cmd.exe provést by byla chyba způsobená selháním kanonizace názvu souboru na nejjednodušší reprezentaci, C: Windows System32 cmd.exe, a nazývá se a procházení adresáře zranitelnost. S kanonizovanou cestou je jasné, že by soubor neměl být spuštěn.

Unicode

v Unicode, mnoho písmen s diakritikou lze reprezentovat více než jedním způsobem. Například, E může být v Unicode zastoupen jako znak Unicode U + 0065 (LATINSKÝ MALÝ LIST E), za nímž následuje znak U + 0301 (KOMBINOVÁNÍ AKUTNÍHO PŘÍPADU), ale může být také reprezentován jako předkomponovaný znak U + 00E9 (LATINSKÝ MALÝ LIST E S AKUTNÍ). Díky tomu je porovnání řetězců komplikovanější, protože je třeba vzít v úvahu všechny možné reprezentace řetězce obsahujícího takové glyfy. K řešení tohoto problému poskytuje Unicode mechanismus kanonická ekvivalence. V této souvislosti kanonizace je Normalizace Unicode.

Kódování s proměnnou šířkou zejména ve standardu Unicode UTF-8, může v některých situacích způsobit další potřebu kanonizace. Standardně je v UTF-8 pouze jedna platná bajtová sekvence pro libovolný znak Unicode,[1] ale některé bajtové sekvence jsou neplatné, tj. E. nelze získat kódováním libovolného řetězce znaků Unicode do UTF-8. Některé nedbalé implementace dekodéru mohou přijímat neplatné bajtové sekvence jako vstup a produkovat platný znak Unicode jako výstup pro takovou sekvenci. Pokud někdo používá takový dekodér, některé znaky Unicode mají účinně více než jednu odpovídající bajtovou sekvenci: platnou a některé neplatné. To by mohlo vést k bezpečnostním problémům podobným těm, které jsou popsány v předchozí části. Pokud tedy někdo chce použít nějaký filtr (např. Regulární výraz napsaný v UTF-8) na řetězce UTF-8, které budou později předány dekodéru, který umožňuje neplatné bajtové sekvence, měl by řetězce před jejich předáním do filtru kanonizovat. . V tomto kontextu je kanonizace procesem převodu každého znaku řetězce do jeho jediné platné bajtové sekvence. Alternativou ke kanonizaci je odmítnutí řetězců obsahujících neplatné bajtové sekvence.

URL

A kanonická URL je URL pro definování jediný zdroj pravdy pro duplicitní obsah.

Používá Google

Kanonická adresa URL je adresa URL stránky, kterou Google považuje za nejreprezentativnější ze sady duplicitních stránek na vašem webu. Například pokud máte adresy URL pro stejnou stránku (například example.com?dress=1234 a example.com/dresses/1234), Google zvolí jednu jako kanonickou. Upozorňujeme, že stránky nemusí být zcela identické; drobné změny v řazení nebo filtrování stránek seznamu nečiní stránku jedinečnou (například řazení podle ceny nebo filtrování podle barvy položky).

Kanonický kanál může být v jiné doméně než duplikát.[2]

Vyhledávače mohou z různých důvodů považovat adresu URL za duplikát. Například

  • www.example.com
  • https://example.com
  • https://www.example.com

Všechny tyto tři jsou stejné adresy URL, které mohou mít podobný obsah, ale Google může je považovat za duplikáty. Přidání a Kanonická adresa URL na původní stránce by tento problém mohl vyřešit.

Internet

Pomocí kanonických adres URL vyhledávač ví, který odkaz by měl být poskytnut ve výsledku dotazu.

A kanonický odkazový prvek si zvykne definovat kanonickou URL.

Intranet

v intranety, převládá manuální vyhledávání informací. V tomto případě lze kanonické adresy URL definovat také ve strojově nečitelné podobě. Například v a pokyn.

Různé

Kanonické adresy URL jsou obvykle adresy URL, které se používají pro sdílet akci.

Vzhledem k tomu, že se kanonická adresa URL používá ve výsledcích vyhledávání ve vyhledávačích, ve většině případů jde o a vstupní stránka.

Vyhledávače a SEO

Ve vyhledávání na webu a optimalizace pro vyhledávače (SEO), Kanonizace URL se zabývá webovým obsahem, který má více než jednu možnou adresu URL. Mít více adres URL pro stejný webový obsah může způsobit problémy vyhledávačům - konkrétně při určování, která adresa URL by se měla zobrazit ve výsledcích vyhledávání.[3] Většina vyhledávačů podporuje Kanonický odkazový prvek jako nápověda ke které adrese URL by se mělo přistupovat jako ke skutečné verzi. Jak uvedl John Mueller ze společnosti Google, který má na stránce jiné směrnice, například roboti noindex prvek může dát vyhledávačům protichůdné signály o tom, jak zvládnout kanonizaci [4]

Příklad:

Všechny tyto adresy URL odkazují na domovskou stránku Wikipedie, ale vyhledávač bude považovat pouze jednu z nich za kanonickou formu adresy URL.

XML

A Kanonický XML document is by definition an XML document that is in XML Canonical form, defined by Kanonická specifikace XML. Stručně řečeno, kanonizace odstraní mezery mezi značkami, použije konkrétní kódování znaků, seřadí odkazy na jmenný prostor a eliminuje nadbytečné, odstraní deklarace XML a DOCTYPE a transformuje relativní URI na absolutní URI.

Jednoduchým příkladem by byly následující dva úryvky XML:

  1. <node1 x='1' a="1" a="2">Data</node1    > <node2>Data</node2>
  2. <node1 a="2" x="1">Data</node1> <node2>Data</node2>

První příklad obsahuje mezery v závěrečné značce prvního uzlu. Druhý příklad, který byl kanonizován, tyto mezery odstranil. Všimněte si, že v rámci kanonizace W3C jsou odstraněny pouze mezery uvnitř značek, nikoli mezery mezi značkami.

Úplný přehled změn kanonizace je uveden níže:

  • Dokument je kódován v UTF-8
  • Konce řádků normalizované na #xA na vstupu před analýzou
  • Hodnoty atributů jsou normalizovány, jako by to bylo u ověřovacího procesoru
  • Budou nahrazeny odkazy na znaky a analyzované entity
  • Sekce CDATA jsou nahrazeny obsahem znaků
  • Deklarace XML a deklarace typu dokumentu jsou odstraněny
  • Prázdné prvky jsou převedeny na počáteční a koncové páry značek
  • Mezery mimo prvek dokumentu a v počátečních a koncových značkách jsou normalizovány
  • Veškerý prázdný znak v obsahu znaků je zachován (s výjimkou znaků odstraněných během normalizace posuvu řádku)
  • Oddělovače hodnot atributů jsou nastaveny na uvozovky (uvozovky)
  • Speciální znaky v hodnotách atributů a obsahu znaků jsou nahrazeny odkazy na znaky
  • Z každého prvku jsou odstraněny nadbytečné deklarace oboru názvů
  • Ke každému prvku jsou přidány výchozí atributy
  • Oprava xml: základna atributy se provádí
  • Lexikografické pořadí je uloženo na deklarace oboru názvů a atributy každého prvku

Výpočetní lingvistika

v morfologie a lexikografie, a lemma je kanonická forma sady slova. v Angličtina, například, běh, běží, běžel a běh jsou stejné formy lexém, abychom mohli vybrat jeden z nich, např. běh, reprezentovat všechny formy. Lexikální databáze jako např Unitex použijte tento druh reprezentace.

Lemmatizace je proces převodu slova na jeho kanonická forma.

Viz také

Reference

  1. ^ RFC 2279: UTF-8, transformační formát ISO 10646
  2. ^ https://support.google.com/webmasters/answer/139066?hl=cs
  3. ^ Cutts, Matt (4. ledna 2006). „SEO rada: kanonizace adresy URL“. Matt Cutts: Gadgety, Google a SEO. Citováno 3. září 2013.
  4. ^ „Canonicalized URL is noindex, nofollow“. Citováno 2020-04-20.

externí odkazy