MP3 - MP3

MP3
Mp3.svg
Přípona názvu souboru.mp3
.bit (před rokem 1995)[1]
Typ internetového média
  • audio / mpeg[2]
  • audio / MPA[3]
  • audio / mpa-robustní[4]
VyvinulKarlheinz Brandenburg Ernst Eberlein, Heinz Gerhäuser, Bernhard Grill, Jürgen Herre a Harald Popp (vše z Fraunhoferova společnost ),[5] a další
První vydání1993; Před 27 lety (1993)[6]
Typ formátuDigitální zvuk
ObsahujeMPEG-ES
Standardy
Otevřený formát ?Ano[8]

MP3 (formálně MPEG-1 Audio Layer III nebo MPEG-2 Audio Layer III)[4] je formát kódování pro digitální zvuk vyvinut do značné míry Fraunhoferova společnost v Německu s podporou dalších digitálních vědců v USA a jinde. Původně definován jako třetí zvukový formát souboru MPEG-1 standard, byla zachována a dále rozšířena - definováním dalších bitových rychlostí a podporou dalších zvukové kanály - jako třetí zvukový formát následujícího MPEG-2 Standard. Třetí verze, známá jako MPEG 2.5 - rozšířená o lepší podporu nižších přenosových rychlostí - je běžně implementována, ale není uznávaným standardem.

MP3 (nebo mp3) jako formát souboru běžně označuje soubory obsahující základní proud MPEG-1 Audio nebo MPEG-2 Audio kódovaných dat, bez dalších složitostí standardu MP3.

S ohledem na audio komprese (aspekt normy, který je koncovým uživatelům nejzřetelnější a pro který je nejlépe známý), používá MP3 ztrátová komprese dat kódovat data pomocí nepřesných aproximací a částečného vyřazení dat. To umožňuje velké zmenšení velikosti souboru ve srovnání s nekomprimovaným zvukem. Kombinace malých rozměrů a přijatelné věrnosti vedla k rozmachu distribuce hudby přes internet v polovině až na konci 90. let, kdy MP3 sloužilo jako podpůrná technologie v době, kdy šířka pásma a úložiště byly stále na špičkové úrovni. Formát MP3 byl brzy spojován s okolními kontroverzemi porušení autorských práv, hudební pirátství a soubor trhání /sdílení služby MP3.com a Napster, mezi ostatními. S příchodem přenosné přehrávače médií, kategorie produktu včetně chytré telefony, Podpora MP3 zůstává téměř univerzální.

Komprese MP3 funguje tak, že snižuje (nebo přibližuje) přesnost určitých složek zvuku, které jsou (psychoakustickou analýzou) považovány za sluchové schopnosti většiny lidí. Tato metoda se běžně označuje jako percepční kódování nebo jako psychoakustické modelování.[9] Zbývající zvukové informace se poté zaznamenají prostorově efektivním způsobem pomocí MDCT a FFT algoritmy. Ve srovnání s Digitální zvuk v kvalitě CD „Komprese MP3 může běžně dosáhnout 75 až 95% zmenšení velikosti. Například MP3 kódované při konstantní přenosové rychlosti 128 kbit / s by vedlo k souboru přibližně 9% velikosti původního zvuku CD.[10] Na začátku roku 2000 si přehrávače kompaktních disků stále častěji osvojovaly podporu pro přehrávání souborů MP3 na datových CD.

The Skupina odborníků na pohyblivý obraz (MPEG) navržený MP3 jako součást svého MPEG-1, a později MPEG-2, standardy. MPEG-1 Audio (MPEG-1 Část 3), který zahrnoval MPEG-1 Audio Layer I, II a III, byl schválen jako návrh výboru pro ISO /IEC standard v roce 1991,[11][12] dokončena v roce 1992,[13] a publikováno v roce 1993 jako ISO / IEC 11172-3: 1993.[6] Rozšíření MPEG-2 Audio (MPEG-2 část 3) s nižšími vzorkovacími a bitovými rychlostmi bylo publikováno v roce 1995 jako ISO / IEC 13818-3: 1995.[7][14] Vyžaduje pouze minimální úpravy stávajících dekodérů MPEG-1 (rozpoznání bitu MPEG-2 v záhlaví a přidání nového nižšího vzorkovacího a bitového toku).

Dějiny

Pozadí

Ztráta MP3 komprese zvukových dat Algoritmus využívá percepčního omezení lidského sluchu sluchové maskování. V roce 1894 americký fyzik Alfred M. Mayer hlásil, že tón může být neslyšitelný jiným tónem s nižší frekvencí.[15] V roce 1959 Richard Ehmer popsal kompletní soubor sluchových křivek týkajících se tohoto jevu.[16] V letech 1967 až 1974 Eberhard Zwicker pracoval v oblasti ladění a maskování kritických frekvenčních pásem,[17][18] který zase stavěl na základním výzkumu v této oblasti od Harvey Fletcher a jeho spolupracovníci na Bell Labs.[19]

Percepční kódování bylo poprvé použito pro kódování řeči komprese s lineární prediktivní kódování (LPC),[20] který má původ v práci Fumitada Itakura (Nagojská univerzita ) a Shuzo Saito (Nippon telegraf a telefon ) v roce 1966.[21] V roce 1978 Bishnu S.Atal a Manfred R. Schroeder v Bell Labs navrhl projev LPC kodek, volala adaptivní prediktivní kódování, který používal psychoakustický kódovací algoritmus využívající maskovací vlastnosti lidského ucha.[20][22] Další optimalizace Schroederem a Atalem s J.L.Hallem byla později uvedena v dokumentu z roku 1979.[23] Ten stejný rok navrhl psychoakustický maskovací kodek také M. A. Krasner,[24] který publikoval a produkoval hardware pro řeč (není použitelný jako hudební komprese bitů), ale zveřejnění jeho výsledků v relativně temném Lincolnova laboratoř Technická zpráva[25] neovlivnilo okamžitě hlavní proud vývoje psychoakustických kodeků.

The diskrétní kosinová transformace (DCT), typ transformovat kódování pro ztrátová komprese, navrhl Nasir Ahmed v roce 1972 byl vyvinut Ahmedem s T. Natarajanem a K. R. Rao v roce 1973; své výsledky zveřejnili v roce 1974.[26][27][28] To vedlo k rozvoji modifikovaná diskrétní kosinová transformace (MDCT), navržený J. P. Princenem, A. W. Johnsonem a A. B. Bradleyem v roce 1987,[29] po dřívější práci Princen a Bradley v roce 1986.[30] MDCT se později stala základní součástí algoritmu MP3.[31]

Ernst Terhardt et al. zkonstruoval v roce 1982 algoritmus popisující sluchové maskování s vysokou přesností.[32] Tato práce se přidala k řadě zpráv od autorů sahajících až k Fletcherovi ak práci, která původně určovala kritické poměry a kritické šířky pásma.

V roce 1985 představili Atal a Schroeder kódově vzrušená lineární předpověď (CELP), algoritmus percepčního kódování řeči založený na LPC se sluchovým maskováním, který dosáhl významného kompresní poměr dat na svou dobu.[20] IEEE je rozhodčí Deník o vybraných oblastech v komunikaci v roce 1988 informoval o široké škále (většinou percepčních) algoritmů komprese zvuku.[33] Vydání „Voice Coding for Communications“ publikované v únoru 1988 informovalo o široké škále zavedených fungujících technologií komprese bitů zvuku,[33] některé z nich používají sluchové maskování jako součást svého základního designu a některé ukazují hardwarové implementace v reálném čase.

Rozvoj

Geneze technologie MP3 je plně popsána v článku profesora Hanse Musmanna,[34] který několik let předsedal skupině ISO MPEG Audio. V prosinci 1988 požadoval MPEG standard kódování zvuku. V červnu 1989 bylo předloženo 14 algoritmů kódování zvuku. Kvůli určité podobnosti mezi těmito návrhy kódování byly seskupeny do čtyř vývojových skupin. První skupina byla ASPEC, od Fraunhofer Gesellschaft, AT&T, France Telecom, Deutsche a Thomson-Brandt. Druhá skupina byla HUDBA tím, že Matsushita, CCETT, ITT a Philips. Třetí skupina byla ATAC, od Fujitsu, JVC, NEC a Sony. A čtvrtá skupina byla SB-ADPCM tím, že NTT a BTRL.[34]

Bezprostřední předchůdci MP3 byli „Optimální kódování ve frekvenční doméně“ (OCF),[35] a Perceptual Transform Coding (PXFM).[36] Tyto dva kodeky byly spolu s příspěvky na přepínání bloků od Thomson-Brandt sloučeny do kodeku s názvem ASPEC, který byl předložen MPEG a který zvítězil v soutěži o kvalitu, ale omylem byl zamítnut jako příliš složitý na implementaci. První praktickou implementací audio percepčního kodéru (OCF) v hardwaru (Krasnerův hardware byl pro praktické použití příliš těžkopádný a pomalý), byla implementace psychoakustického transformačního kodéru založeného na Motorola 56000 DSP bramborové hranolky.

Dalšího předchůdce formátu a technologie MP3 lze nalézt v percepčním kodeku MUSICAM založeném na celočíselné aritmetice 32 dílčích pásmech filtrační banky poháněné psychoakustickým modelem. Byl primárně určen pro digitální rozhlasové vysílání (Digital Radio Broadcasting) a digitální televizi a jeho základní principy sdělily vědecké komunitě CCETT (Francie) a IRT (Německo) v Atlantě během konference IEEE-ICASSP v roce 1991,[37] poté, co pracoval na MUSICAM s Matsushita a Philips od roku 1989.[34]

Tento kodek zabudovaný do vysílacího systému využívající modulaci COFDM byl demonstrován na vzduchu i v terénu[38] s Radio Canada a CRC Canada během show NAB (Las Vegas) v roce 1991. Implementace zvukové části tohoto vysílacího systému byla založena na dvoučipovém kodéru (jeden pro subpásmovou transformaci, druhý pro psychoakustický model navržený tým G. Stoll (IRT Německo), později známý jako psychoakustický model I) a dekodér v reálném čase s použitím jednoho Motorola 56001 DSP čip s celočíselným aritmetickým softwarem navrženým Y.F. Deheryho tým (CCETT, Francie). Jednoduchost odpovídajícího dekodéru spolu s vysokou zvukovou kvalitou tohoto kodeku využívající poprvé vzorkovací frekvenci 48 kHz, vstupní formát 20 bitů / vzorek (nejvyšší dostupný vzorkovací standard v roce 1991, kompatibilní s profesionálním digitálním AES / EBU vstupní studiový standard) byly hlavními důvody pro pozdější přijetí charakteristik MUSICAM jako základních vlastností pokročilého kodeku pro kompresi digitální hudby.

Během vývoje kódovacího softwaru MUSICAM tým Stoll a Dehery důkladně využil sadu vysoce kvalitního materiálu pro hodnocení zvuku[39] vybráno skupinou zvukových profesionálů z Evropské vysílací unie a později použito jako reference pro hodnocení hudebních kompresních kodeků. Bylo zjištěno, že technika subpásmového kódování je efektivní nejen pro percepční kódování vysoce kvalitních zvukových materiálů, ale zejména pro kódování kritických perkusních zvukových materiálů (bicí, trojúhelník, ...), a to díky specifickému časovému efektu maskování subbankové filtrační banky MUSICAM (tato výhoda je specifickým rysem technik kódování krátké transformace).

Jako doktorand v Německu University of Erlangen-Nuremberg, Karlheinz Brandenburg začal pracovat na kompresi digitální hudby na začátku 80. let se zaměřením na to, jak lidé vnímají hudbu. Doktorskou práci dokončil v roce 1989.[40] MP3 pochází přímo z OCF a PXFM, což představuje výsledek spolupráce Brandenburgu - pracuje jako postdoktorandský výzkumník v laboratořích AT & T-Bell s Jamesem D. Johnstonem („JJ“) z AT & T-Bell Labs - s Fraunhoferův institut pro integrované obvody, Erlangen (kde pracoval s Bernhard Grill a čtyři další vědci - „The Original Six“[41]), s relativně malými příspěvky z odvětví MP2 psychoakustických subpásmových kodérů. V roce 1990 se Brandenburg stal odborným asistentem v Erlangen-Norimberku. Zatímco tam byl, pokračoval v práci na komprimaci hudby s vědci v Fraunhoferova společnost je Institut Heinricha Herze (v roce 1993 nastoupil do týmu Fraunhofer HHI).[40] Píseň "Tom's Diner "od Suzanne Vega byla první píseň, kterou použil Karlheinz Brandenburg k vývoji MP3. Brandenburg přijal píseň pro účely testování, poslouchal ji znovu a znovu pokaždé, když vylepšil schéma, a ujistil se, že to nepříznivě neovlivní jemnost hlasu Vega.[42]

Standardizace

V roce 1991 byly k dispozici dva návrhy, které byly posouzeny pro zvukový standard MPEG: HUDBA (Mdotazovací vzor upraven Universal Subband integrovaný Coding And Multiplexování) a ASPEC (Akřestní Spektrální Perceptuální Entropy Coding). Technika MUSICAM, kterou navrhl Philips (Holandsko), CCETT (Francie), Institute for Broadcast Technology (Německo) a Matsushita (Japonsko),[43] byl vybrán kvůli jeho jednoduchosti a robustnosti proti chybám, stejně jako kvůli vysoké úrovni výpočetní efektivity.[44] Formát MUSICAM založený na kódování dílčích pásem, se stal základem pro kompresní formát MPEG Audio, zahrnující například jeho rámcovou strukturu, formát záhlaví, vzorkovací frekvence atd.

Zatímco velká část technologie a nápadů MUSICAM byla začleněna do definice MPEG Audio Layer I a Layer II, samotná filtrační banka a datová struktura založená na 1152 vzorcích rámování (formát souboru a byte orientovaný stream) MUSICAM zůstaly ve vrstvě III ( MP3), jako součást výpočetně neefektivního hybridu filtr banka. Pod vedením profesora Musmanna z Leibniz University Hannover, byla úprava standardu přenesena na Leon van de Kerkhof (Nizozemsko), Gerhard Stoll (Německo) a Yves-François Dehery (Francie), kteří pracovali na vrstvách I a II. ASPEC byl společným návrhem společností AT&T Bell Laboratories, Thomson Consumer Electronics, Fraunhofer Society a CNET.[45] Poskytoval nejvyšší účinnost kódování.

A pracovní skupina skládající se z van de Kerkhof, Stoll, Leonardo Chiariglione (CSELT VP pro média), Yves-François Dehery, Karlheinz Brandenburg (Německo) a James D. Johnston (USA) převzali nápady od ASPEC, integrovali filtrační banku z vrstvy II, přidali některé ze svých vlastních nápadů, jako je společné stereofonní kódování MUSICAM a vytvořil formát MP3, který byl navržen pro dosažení stejné kvality při 128kbit / s tak jako MP2 při 192 kbit / s.

Algoritmy pro MPEG-1 Audio Layer I, II a III byly schváleny v roce 1991[11][12] a dokončena v roce 1992[13] jako část MPEG-1, první standardní sada od MPEG, což vyústilo v mezinárodní standard ISO /IEC 11172-3 (aka Zvuk MPEG-1 nebo MPEG-1 část 3), publikovaný v roce 1993.[6] Soubory nebo datové toky vyhovující tomuto standardu musí zpracovávat vzorkovací frekvence 48k, 44100 a 32k a musí být nadále podporovány aktuálními MP3 přehrávače a dekodéry. Takto je definována první generace MP3 14 × 3 = 42 interpretace datových struktur rámců MP3 a rozložení velikostí.

Další práce na zvuku MPEG[46] byl dokončen v roce 1994 jako součást druhé sady standardů MPEG, MPEG-2, více formálně známý jako mezinárodní standard ISO / IEC 13818-3 (aka MPEG-2 část 3 nebo zpětně kompatibilní Zvuk MPEG-2 nebo MPEG-2 Audio BC[14]), původně publikováno v roce 1995.[7][47] MPEG-2 Část 3 (ISO / IEC 13818-3) definoval dalších 42 bitových rychlostí a vzorkovací frekvence pro MPEG-1 audio vrstvu I, II a III. Nové vzorkovací frekvence jsou přesně poloviční oproti těm, které byly původně definovány v MPEG-1 Audio. Toto snížení vzorkovací frekvence slouží ke snížení dostupné věrnosti kmitočtu na polovinu a zároveň ke snížení datového toku o 50%. MPEG-2 část 3 také vylepšila zvuk MPEG-1 tím, že umožňuje kódování zvukových programů s více než dvěma kanály, až na 5,1 vícekanálový.[46] MP3 kódované MPEG-2 má za následek polovinu šířky pásma reprodukce MPEG-1 vhodné pro klavír a zpěv.

Třetí generace datových toků (souborů) ve stylu "MP3" rozšířila MPEG-2 nápady a implementace, ale byl pojmenován MPEG-2.5 audio, protože MPEG-3 již měl jiný význam. Toto rozšíření bylo vyvinuto ve Fraunhofer IIS, registrovaných držitelích patentů MP3, snížením pole synchronizace snímků v hlavičce MP3 z 12 na 11 bitů. Stejně jako při přechodu z MPEG-1 na MPEG-2 přidává MPEG-2.5 další vzorkovací frekvence přesně polovinu těch, které jsou k dispozici při použití MPEG-2. Rozšiřuje tak rozsah MP3 tak, aby zahrnoval lidskou řeč a další aplikace, ale vyžaduje pouze 25% šířky pásma (frekvenční reprodukce) možné při použití vzorkovacích rychlostí MPEG-1. I když to není standard uznávaný ISO, je MPEG-2.5 široce podporován jak levnými čínskými a značkovými digitálními audio přehrávači, tak i MP3 kodéry založenými na počítačovém softwaru (CHROMÝ ), přidávání dekodérů (FFmpeg) a hráčů (MPC) 3 × 8 = 24 další typy rámců MP3. Každá generace MP3 tedy podporuje 3 vzorkovací frekvence přesně poloviční oproti předchozí generaci pro celkem 9 druhů souborů ve formátu MP3. Tabulka srovnání vzorkovací frekvence mezi MPEG-1, 2 a 2,5 je uvedena dále v článku.[48][49] MPEG-2.5 je podporován LAME (od roku 2000), Media Player Classic (MPC), iTunes a FFmpeg.

MPEG-2.5 nebyl vyvinut MPEG (viz výše) a nikdy nebyl schválen jako mezinárodní standard. MPEG-2.5 je tedy neoficiální nebo proprietární rozšíření formátu MP3. Je nicméně všudypřítomný a obzvláště výhodný pro aplikace lidské řeči s nízkou bitovou rychlostí.

Verze MPEG Audio Layer III[6][7][12][48][49][50]
VerzeMezinárodní standard[*]Datum veřejného vydání prvního vydáníDatum posledního veřejného vydání
MPEG-1 Audio Layer IIIISO / IEC 11172-3 (MPEG-1 část 3)1993
MPEG-2 Audio Layer IIIISO / IEC 13818-3 (MPEG-2 část 3)19951998
MPEG-2.5 Audio Layer IIInestandardní, vlastní20002008

  • Norma ISO ISO / IEC 11172-3 (aka MPEG-1 Audio) definovala tři formáty: MPEG-1 Audio Layer I, Layer II a Layer III. Norma ISO ISO / IEC 13818-3 (aka MPEG-2 Audio) definovala rozšířenou verzi zvuku MPEG-1: MPEG-2 Audio Layer I, Layer II a Layer III. Zvuk MPEG-2 (MPEG-2 část 3) by neměl být zaměňován s MPEG-2 AAC (MPEG-2 část 7 - ISO / IEC 13818-7).[14]

Účinnost komprese kodérů je obvykle definována bitovou rychlostí, protože kompresní poměr závisí na bitová hloubka a vzorkovací frekvence vstupního signálu. Přesto jsou často zveřejňovány kompresní poměry. Mohou používat Kompaktní disk (CD) parametry jako reference (44.1 kHz, 2 kanály na 16 bitů na kanál nebo 2 × 16 bitů), nebo někdy Digitální audiokazeta (DAT) SP parametry (48 kHz, 2 × 16 bitů). Kompresní poměry s touto druhou referencí jsou vyšší, což ukazuje problém s používáním tohoto výrazu kompresní poměr pro ztrátové kodéry.

Karlheinz Brandenburg použil nahrávku CD z Suzanne Vega píseň "Tom's Diner "posoudit a vylepšit MP3 kompresní algoritmus. Tato píseň byla vybrána kvůli její téměř monofonní přirozenost a široký spektrální obsah, což usnadňuje poslech nedokonalostí ve formátu komprese během přehrávání. Někteří označují Suzanne Vega jako „matku MP3“.[51] Tato konkrétní stopa má zajímavou vlastnost v tom, že tyto dva kanály jsou téměř, ale ne úplně, stejné, což vede k případu, kdy deprese úrovně binaurální maskování způsobí prostorové demaskování šumových artefaktů, pokud kodér situaci správně nerozpozná a neprovede podobné korekce. podrobně popsáno v psychoakustickém modelu MPEG-2 AAC. Některé důležitější zvukové výňatky (zvonkohra, trojúhelník, akordeon atd.) byly převzaty z EBU Referenční kompaktní disk V3 / SQAM a byly použity profesionálními zvukovými inženýry k posouzení subjektivní kvality formátů MPEG Audio. LAME je nejpokročilejší kodér MP3. LAME obsahuje kódování proměnné bitové rychlosti VBR, které používá spíše parametr kvality než cíl bitové rychlosti. Novější verze 2008+) podporují cíl kvality n.nnn, který automaticky vybere vzorkovací frekvence MPEG-2 nebo MPEG-2.5 podle potřeby pro nahrávky lidské řeči, které vyžadují pouze rozlišení šířky pásma 5512 Hz.

Bude zveřejněno

Implementace referenčního simulačního softwaru, napsaná v jazyce C a později známá jako ISO 11172-5, byl vyvinut (v letech 1991–1996) členy výboru ISO MPEG Audio za účelem výroby bitově kompatibilních zvukových souborů MPEG (vrstva 1, vrstva 2, vrstva 3). Byl schválen jako návrh technické zprávy ISO / IEC v březnu 1994 a vytištěn jako dokument CD 11172-5 v dubnu 1994.[52] Byl schválen jako návrh technické zprávy (DTR / DIS) v listopadu 1994,[53] dokončena v roce 1996 a publikována jako mezinárodní norma ISO / IEC TR 11172-5: 1998 v roce 1998.[54] The referenční software v jazyce C byl později publikován jako volně dostupný standard ISO.[55] Práce v jiném než reálném čase na řadě operačních systémů dokázala předvést první hardwarové dekódování v reálném čase (DSP na základě) komprimovaného zvuku. Některé další implementace kodérů a dekodérů zvuku MPEG Audio v reálném čase[56] byly k dispozici pro účely digitálního vysílání (rádio DAB, televize DVB ) směrem k spotřebitelským přijímačům a set top boxům.

Dne 7. Července 1994 Fraunhoferova společnost vydal první softwarový kodér MP3 s názvem l3enc.[57] The přípona souboru .mp3 byl vybrán týmem Fraunhofer dne 14. července 1995 (dříve byly soubory pojmenovány .bit).[1] S prvním softwarovým přehrávačem MP3 v reálném čase WinPlay3 (vydáno 9. září 1995) mnoho lidí dokázalo kódovat a přehrávat soubory MP3 na svých počítačích. Kvůli relativně malému pevné disky éry (≈500–1000 MB ) ztrátová komprese byla nezbytná pro uložení hudby v několika albech na domácím počítači jako plné nahrávky (na rozdíl od MIDI notace, nebo stopař soubory, které kombinovaly notaci s krátkými nahrávkami nástrojů hrajících jednotlivé noty). Jak poznamenává vědec Jonathan Sterne: „Získal australský hacker l3enc pomocí ukradené kreditní karty. Hacker poté software zpětně připravil, vytvořil nové uživatelské rozhraní a zdarma jej znovu distribuoval a pojmenoval jej „děkuji Fraunhofer“ “.[58]

Příklad implementace Fraunhofer

Hacker jménem SoloH objevil zdrojový kód „dist10“ MPEG referenční implementace krátce po vydání na serverech University of Erlangen. Vyvinul kvalitnější verzi a rozšířil ji na internet. Tento kód zahájil rozsáhlé rozšíření Kopírování CD a distribuce digitální hudby jako MP3 přes internet.[59][60][61][62]

Internetová distribuce

V druhé polovině 90. let se na internetu začaly šířit soubory MP3 Internet, často prostřednictvím podzemních pirátských sítí písní. První známý experiment v internetové distribuci zorganizoval počátkem 90. let Internet Underground Music Archive, lépe známý pod zkratkou IUMA. Po několika experimentech[63] pomocí nekomprimovaných zvukových souborů začal tento archiv po nativním celosvětovém nízkorychlostním internetu dodávat některé komprimované zvukové soubory MPEG ve formátu MP2 (vrstva II) a později na použité soubory MP3, když byl standard plně dokončen. Popularita MP3 začala rychle růst s příchodem Nullsoft audio přehrávač Winamp, vydané v roce 1997. V roce 1998, první přenosný digitální audio přehrávač v pevné fázi MPMan, vyvinutý společností Informační systémy SaeHan se sídlem v Soul, Jižní Korea, byl propuštěn a Rio PMP300 byl prodán poté v roce 1998, a to navzdory snahám o právní potlačení ze strany RIAA.[64]

V listopadu 1997 webová stránka mp3.com nabízel zdarma tisíce MP3 vytvořených nezávislými umělci.[64] Malá velikost souborů MP3 umožnila rozšíření peer-to-peer Sdílení souborů hudby roztrhl z CD, což by dříve bylo téměř nemožné. První velká síť pro sdílení souborů peer-to-peer, Napster, byla zahájena v roce 1999. Snadnost vytváření a sdílení MP3 vedla k širokému rozšíření porušení autorských práv. Velké nahrávací společnosti tvrdily, že toto bezplatné sdílení hudby snížilo tržby, a nazvaly to „hudební pirátství ". Reagovali tím, že pokračovali v soudních sporech Napster (který byl nakonec ukončen a později prodán) a proti jednotlivým uživatelům, kteří se podíleli na sdílení souborů.[65]

Neoprávněné sdílení souborů MP3 pokračuje další generací sítě typu peer-to-peer. Některé autorizované služby, například Beatport, Pípnutí, Juno Records, eMusic, Zune Marketplace, Walmart.com, Rapsódie, nahrávací průmysl schválil reinkarnaci Napster, a Amazon.com prodávat neomezenou hudbu ve formátu MP3.

Design

Struktura souborů

Diagram of the structure of an MP3 file
Schéma struktury souboru MP3 (MPEG verze 2.5 není podporována, tedy 12 místo 11 bitů pro MP3 Sync Word).

Soubor MP3 se skládá z rámců MP3, které se skládají z hlavičky a datového bloku. Tato posloupnost snímků se nazývá an základní proud. Kvůli „bitové nádrži“ nejsou rámce samostatnými položkami a obvykle je nelze extrahovat na libovolných hranicích rámců. Datové bloky MP3 obsahují (komprimované) zvukové informace z hlediska frekvencí a amplitud. Diagram ukazuje, že záhlaví MP3 sestává z a synchronizovat slovo, který se používá k identifikaci začátku platného rámce. Následuje bit, který naznačuje, že se jedná o MPEG standardní a dva bity, které označují, že je použita vrstva 3; tedy MPEG-1 Audio Layer 3 nebo MP3. Poté se hodnoty budou lišit v závislosti na souboru MP3. ISO /IEC 11172-3 definuje rozsah hodnot pro každou část záhlaví spolu se specifikací záhlaví. Většina souborů MP3 dnes obsahuje ID3 metadata, který předchází nebo sleduje rámce MP3, jak je uvedeno na obrázku. Datový proud může obsahovat volitelný kontrolní součet.

Společné stereo se provádí pouze na základě jednotlivých snímků.[66]

Kódování a dekódování

Algoritmus kódování MP3 je obecně rozdělen do čtyř částí. Část 1 rozděluje zvukový signál na menší části, které se nazývají rámce, a modifikovaná diskrétní kosinová transformace Na výstupu se poté provede filtr (MDCT). Část 2 předá vzorek do 1024 bodů rychlá Fourierova transformace (FFT), pak psychoakustické model se použije a na výstupu se provede další filtr MDCT. Část 3 kvantifikuje a kóduje každý vzorek, známý jako alokace šumu, který se sám upraví tak, aby splňoval přenosová rychlost a maskování zvuku požadavky. Část 4 formátuje bitový proud, nazývaný zvukový rám, který se skládá ze 4 částí, záhlaví, kontrola chyb, audio data, a doplňkové údaje.[31]

The MPEG-1 Standard neobsahuje přesnou specifikaci kodéru MP3, ale poskytuje příklady psychoakustických modelů, frekvenční smyčky apod. v nenormativní části původního standardu.[67]MPEG-2 zdvojnásobuje počet podporovaných vzorkovacích frekvencí a MPEG-2.5 přidává další 3. Když to bylo napsáno, navrhované implementace byly docela zastaralé. Implementátoři standardu měli vymyslet vlastní algoritmy vhodné pro odstranění částí informace ze zvukového vstupu. Ve výsledku bylo k dispozici mnoho různých kodérů MP3, z nichž každý produkoval soubory různé kvality. Srovnání byla široce dostupná, takže pro potenciálního uživatele kodéru bylo snadné prozkoumat tu nejlepší volbu. Některé kodéry, které dokázaly kódovat při vyšších bitových rychlostech (např CHROMÝ ) nebyly nutně tak dobré při nižších přenosových rychlostech. Postupem času se LAME vyvinul na webových stránkách SourceForge, až se stal de facto kodérem MP3 CBR. Později byl přidán režim ABR. Práce pokračovaly na skutečné variabilní přenosové rychlosti s použitím kvalitativního cíle mezi 0 a 10. Čísla (například -V 9 600) by mohla pomocí rozšíření MPEG-2,5 generovat kódování hlasu s nízkou přenosovou rychlostí ve vynikající kvalitě při pouhých 41 kbit / s.

Během kódování je odebráno 576 vzorků v časové doméně a jsou transformovány na 576 vzorky ve frekvenční doméně.[je zapotřebí objasnění ] Pokud existuje přechodný Místo 576 je odebráno 192 vzorků. Důvodem je omezení časového šíření kvantizačního šumu doprovázejícího přechodový jev (viz psychoakustika ). Rozlišení frekvence je omezeno malou velikostí okna dlouhého bloku, což snižuje účinnost kódování.[66] Časové rozlišení může být příliš nízké pro vysoce přechodné signály a může způsobit rozmazání perkusních zvuků.[66]

Kvůli stromové struktuře banky filtrů se problémy s pre-echo zhoršují, protože kombinovaná impulsní odezva dvou bank filtrů neposkytuje a nemůže poskytovat optimální řešení v rozlišení čas / frekvence.[66] Kombinace výstupů obou bank filtrů navíc vytváří problémy s aliasingem, které musí být částečně řešeno ve fázi „kompenzace aliasingu“; to však vytváří přebytečnou energii, která má být kódována ve frekvenční doméně, čímž se snižuje účinnost kódování.[Citace je zapotřebí ]

Dekódování je naproti tomu v normě pečlivě definováno. Většina dekodéry jsou „bitový proud compliant ", což znamená, že dekomprimovaný výstup, který produkují z daného souboru MP3, bude stejný, ve stanoveném stupni zaokrouhlování tolerance, jako výstup specifikovaný matematicky ve vysokém standardním dokumentu ISO / IEC (ISO / IEC 11172-3). Srovnání dekodérů proto obvykle vychází z toho, jak výpočetně efektivní jsou (tj. Kolik Paměť nebo procesor čas, který používají v procesu dekódování). Postupem času se tato obava stala méně důležitým problémem, protože rychlosti CPU přecházely z MHz na GHz. Celkové zpoždění kodéru / dekodéru není definováno, což znamená, že neexistuje žádné oficiální ustanovení přehrávání bez mezer. Některé kodéry, například LAME, však mohou připojit další metadata, která hráčům, kteří to zvládnou, umožní bezproblémové přehrávání.

Kvalitní

Při provádění ztrátového kódování zvuku, například při vytváření datového proudu MP3, dochází k kompromisu mezi množstvím generovaných dat a kvalitou zvuku výsledků. Osoba generující MP3 vybere a přenosová rychlost, který určuje kolik kilobitů je žádoucí zvuk za sekundu. Čím vyšší je přenosová rychlost, tím větší bude datový proud MP3 a obecně bude čím blíže k původnímu záznamu. S příliš nízkou přenosovou rychlostí kompresní artefakty (tj. zvuky, které se v původní nahrávce nenacházely), může být v reprodukci slyšet. Některé zvuky se obtížně komprimují kvůli jejich náhodnosti a ostrým útokům. Když je tento typ zvuku komprimován, artefakty, jako je vyzvánění nebo pre-echo jsou obvykle slyšet. Vzorek potlesku nebo trojúhelníkový nástroj s relativně nízkou bitovou rychlostí poskytují dobré příklady kompresních artefaktů. Většina subjektivních testů percepčních kodeků má tendenci se těmto typům zvukových materiálů vyhýbat, avšak artefakty generované perkusivními zvuky jsou sotva vnímatelné kvůli specifické funkci časového maskování 32 dílčího pásma filtrů vrstvy II, na kterém je formát založen .

Kromě bitové rychlosti kódovaného kusu zvuku závisí kvalita zvuku kódovaného MP3 také na kvalitě algoritmu kodéru a na složitosti kódovaného signálu. Protože standard MP3 umožňuje s kódovacími algoritmy docela dost volnosti, různé kodéry mají zcela odlišnou kvalitu, a to i při identických bitových rychlostech. Jako příklad lze uvést, že ve veřejném poslechovém testu se dvěma časnými kodéry MP3 nastavenými na přibližně 128 kbit / s[68] jeden zaznamenal skóre 3,66 na stupnici 1–5, zatímco druhý pouze 2,22. Kvalita závisí na volbě kodéru a parametrech kódování.[69]

Toto pozorování způsobilo revoluci v kódování zvuku. Počáteční bitrate byl hlavní a jedinou úvahou. V té době byly soubory MP3 velmi nejjednodušší: používaly stejnou přenosovou rychlost pro celý soubor: tento proces je známý jako Konstantní přenosová rychlost (CBR) kódování. Díky konstantní přenosové rychlosti je kódování jednodušší a méně náročné na CPU. Je však také možné vytvářet soubory, kde se bitová rychlost v celém souboru mění. Tito jsou známí jako Variabilní přenosová rychlost. Bitový rezervoár a kódování VBR byly ve skutečnosti součástí původního standardu MPEG-1. Koncept za nimi spočívá v tom, že v jakékoli části zvuku se některé sekce snadněji komprimují, například ticho nebo hudba obsahující pouze několik tónů, zatímco jiné se budou komprimovat obtížněji. Celková kvalita souboru může být tedy zvýšena použitím nižší přenosové rychlosti pro méně složité pasáže a vyšší pro složitější části. U některých pokročilých kodérů MP3 je možné určit danou kvalitu a kodér podle toho upraví bitovou rychlost. Uživatelé, kteří touží po konkrétním „nastavení kvality“ průhledný do jejich uší mohou tuto hodnotu použít při kódování celé své hudby a obecně řečeno se nemusí starat o provádění osobních poslechových testů na každé hudební skladbě, aby určili správnou bitovou rychlost.

Vnímanou kvalitu lze ovlivnit prostředím poslechu (okolní hluk), pozorností posluchače a tréninkem posluchače a ve většině případů zvukovým vybavením posluchače (například zvukové karty, reproduktory a sluchátka). Dostatečné kvality lze dále dosáhnout nastavením nižší kvality pro přednášky a aplikace lidské řeči a snižuje čas a složitost kódování. Test zadaný novým studentům uživatelem Stanfordská Univerzita Hudební profesor Jonathan Berger ukázal, že preference studentů pro hudbu v kvalitě MP3 každým rokem vzrostly. Berger řekl, že studenti zřejmě preferují „syčivé“ zvuky, které MP3 přinášejí do hudby.[70]

Hloubková studie kvality zvuku MP3, zvukového umělce a skladatele Ryan Maguire Projekt "Duch v MP3" izoluje zvuky ztracené při kompresi MP3. V roce 2015 vydal skladbu „moDernisT“ (přesmyčka „Tom's Diner“), složenou výhradně ze zvuků odstraněných během MP3 komprese písně „Tom's Diner“,[71][72][73] skladba původně použitá při formulaci standardu MP3. Podrobný popis technik použitých k izolaci zvuků odstraněných během komprese MP3, spolu s koncepční motivací projektu, byl publikován v roce 2014 ve sborníku z mezinárodní konference o počítačové hudbě.[74]

Přenosová rychlost

MPEG Audio Layer III
dostupné přenosové rychlosti (kbit / s)[12][48][49][50][75]
MPEG-1
Zvuková vrstva III
MPEG-2
Zvuková vrstva III
MPEG-2.5
Zvuková vrstva III
88
1616
2424
323232
404040
484848
565656
646464
8080
9696
112112
128128
n / a144
160160
192
224
256
320
Podporované vzorkovací frekvence
podle formátu zvuku MPEG[12][48][49][50]
MPEG-1
Zvuková vrstva III
MPEG-2
Zvuková vrstva III
MPEG-2.5
Zvuková vrstva III
8000 Hz
11025 Hz
12 000 Hz
16 000 Hz
22050 Hz
24 000 Hz
32 000 Hz
44 100 Hz
48 000 Hz

Bitrate je produktem vzorkovací frekvence a počtu bitů na vzorek použitého ke kódování hudby. Zvuk CD je 44 100 vzorků za sekundu. Počet bitů na vzorek také závisí na počtu zvukových kanálů. CD je stereo a 16 bitů na kanál. Vynásobením čísla 44100 číslem 32 tedy získáte 141 1200 - datový tok nekomprimovaného digitálního zvuku CD. MP3 bylo navrženo ke kódování těchto dat 1411 kbit / s na 320 kbit / s nebo méně. Protože algoritmy MP3 detekují méně složité pasáže, mohou být použity nižší přenosové rychlosti. Při použití MPEG-2 namísto MPEG-1 podporuje MP3 pouze nižší vzorkovací frekvence (16 000, 22050 nebo 24 000 vzorků za sekundu) a nabízí možnosti datového toku až 8 kbit / s, ale ne vyšší než 160 kbit / s. Snížením vzorkovací frekvence odstraní vrstva III MPEG-2 všechny frekvence nad polovinu nové vzorkovací frekvence, která mohla být přítomna ve zdrojovém zvuku.

Jak je znázorněno v těchto dvou tabulkách, bylo vybráno 14 přenosové rychlosti jsou povoleny ve standardu MPEG-1 Audio Layer III: 32, 40, 48, 56, 64, 80, 96, 112, 128, 160, 192, 224, 256 a 320 kbit / s, spolu se 3 nejvyššími dostupnými vzorkovací frekvence z 32, 44,1 a 48kHz.[49] MPEG-2 Audio Layer III také umožňuje 14 poněkud odlišných (a většinou nižších) přenosové rychlosti 8, 16, 24, 32, 40, 48, 56, 64, 80, 96, 112, 128, 144, 160 kbit / s s vzorkovací frekvence ze dne 16., 22.05 a 24kHz což je přesně polovina oproti MPEG-1[49] Rámečky MPEG-2.5 Audio Layer III jsou omezeny pouze na 8 přenosové rychlosti 8, 16, 24, 32, 40, 48, 56 a 64 kbit / s se 3 ještě nižšími vzorkovací frekvence 8, 11,025 a 12 kHz.[Citace je zapotřebí ] On earlier systems that only support the MPEG-1 Audio Layer III standard, MP3 files with a bit rate below 32 kbit/s might be played back sped-up and pitched-up.

Earlier systems also lack fast forwarding and rewinding playback controls on MP3.[76][77]

MPEG-1 frames contain the most detail in 320 kbit/s mode, the highest allowable bit rate setting,[78] with silence and simple tones still requiring 32 kbit/s. MPEG-2 frames can capture up to 12 kHz sound reproductions needed up to 160 kbit/s. MP3 files made with MPEG-2 don't have 20 kHz bandwidth because of the Nyquist – Shannonova věta o vzorkování. Frequency reproduction is always strictly less than half of the sampling frequency, and imperfect filters require a larger margin for error (noise level versus sharpness of filter), so an 8 kHz sampling rate limits the maximum frequency to 4 kHz, while a 48 kHz sampling rate limits an MP3 to a maximum 24 kHz sound reproduction. MPEG-2 uses half and MPEG-2.5 only a quarter of MPEG-1 sample rates.

For the general field of human speech reproduction, a bandwidth of 5512 Hz is sufficient to produce excellent results (for voice) using the sampling rate of 11025 and VBR encoding from 44100 (standard) WAV file. English speakers average 41–42 kbit/s with -V 9.6 setting but this may vary with amount of silence recorded or the rate of delivery (wpm). Resampling to 12000 (6K bandwidth) is selected by the LAME parameter -V 9.4 Likewise -V 9.2 selects 16000 sample rate and a resultant 8K lowpass filtering. For more information see Nyquist – Shannon. Older versions of LAME and FFmpeg only support integer arguments for the variable bit rate quality selection parameter. The n.nnn quality parameter (-V) is documented at lame.sourceforge.net but is only supported in LAME with the new style VBR variable bit rate quality selector—not average bit rate (ABR).

A sample rate of 44.1 kHz is commonly used for music reproduction, because this is also used for CD audio, the main source used for creating MP3 files. A great variety of bit rates are used on the Internet. A bit rate of 128 kbit/s is commonly used,[79] at a compression ratio of 11:1, offering adequate audio quality in a relatively small space. As Internet šířka pásma availability and hard drive sizes have increased, higher bit rates up to 320 kbit/s are widespread. Uncompressed audio as stored on an audio-CD has a bit rate of 1,411.2 kbit/s, (16 bit/sample × 44100 samples/second × 2 channels / 1000 bits/kilobit), so the bitrates 128, 160 and 192 kbit/s represent kompresní poměry of approximately 11:1, 9:1 and 7:1 respectively.

Non-standard bit rates up to 640 kbit/s can be achieved with the CHROMÝ encoder and the freeformat option, although few MP3 players can play those files. According to the ISO standard, decoders are only required to be able to decode streams up to 320 kbit/s.[80][81][82] Early MPEG Layer III encoders used what is now called Constant Bit Rate (CBR). The software was only able to use a uniform bitrate on all frames in an MP3 file. Later more sophisticated MP3 encoders were able to use the bit reservoir to target an average bit rate selecting the encoding rate for each frame based on the complexity of the sound in that portion of the recording.

A more sophisticated MP3 encoder can produce variabilní datový tok Zvuk. MPEG audio may use bitrate switching on a per-frame basis, but only layer III decoders must support it.[49][83][84][85] VBR is used when the goal is to achieve a fixed level of quality. The final file size of a VBR encoding is less predictable than with konstantní datový tok. Průměrný datový tok is a type of VBR implemented as a compromise between the two: the bitrate is allowed to vary for more consistent quality, but is controlled to remain near an average value chosen by the user, for predictable file sizes. Although an MP3 decoder must support VBR to be standards compliant, historically some decoders have bugs with VBR decoding, particularly before VBR encoders became widespread. The most evolved LAME MP3 encoder supports the generation of VBR, ABR, and even the older CBR MP3 formats.

Layer III audio can also use a "bit reservoir", a partially full frame's ability to hold part of the next frame's audio data, allowing temporary changes in effective bitrate, even in a constant bitrate stream.[49][83] Internal handling of the bit reservoir increases encoding delay.[Citace je zapotřebí ] There is no scale factor band 21 (sfb21) for frequencies above approx 16 kHz, forcing the encoder to choose between less accurate representation in band 21 or less efficient storage in all bands below band 21, the latter resulting in wasted bitrate in VBR encoding.[86]

Pomocné údaje

The ancillary data field can be used to store user defined data. The ancillary data is optional and the number of bits available is not explicitly given. The ancillary data is located after the Huffman code bits and ranges to where the next frame's main_data_begin points to. Encoder mp3PRO used ancillary data to encode extra information which could improve audio quality when decoded with its own algorithm.

Metadata

A "tag" in an audio file is a section of the file that contains metadata such as the title, artist, album, track number or other information about the file's contents. The MP3 standards do not define tag formats for MP3 files, nor is there a standard formát kontejneru that would support metadata and obviate the need for tags. Několik de facto standards for tag formats exist. As of 2010, the most widespread are ID3v1 and ID3v2, and the more recently introduced APEv2. These tags are normally embedded at the beginning or end of MP3 files, separate from the actual MP3 frame data. MP3 decoders either extract information from the tags, or just treat them as ignorable, non-MP3 junk data.

Playing and editing software often contains tag editing functionality, but there are also tag editor applications dedicated to the purpose. Aside from metadata pertaining to the audio content, tags may also be used for DRM.[87] ReplayGain is a standard for measuring and storing the loudness of an MP3 file (audio normalization ) in its metadata tag, enabling a ReplayGain-compliant player to automatically adjust the overall playback volume for each file. MP3Gain may be used to reversibly modify files based on ReplayGain measurements so that adjusted playback can be achieved on players without ReplayGain capability.

Licensing, ownership, and legislation

The basic MP3 decoding and encoding technology is patent-free in the European Union, all patents having expired there by 2012 at the latest. In the United States, the technology became substantially patent-free on 16 April 2017 (see below). MP3 patents expired in the US between 2007 and 2017. In the past, many organizations have claimed ownership of patenty related to MP3 decoding or encoding. These claims led to a number of legal threats and actions from a variety of sources. As a result, uncertainty about which patents must have been licensed in order to create MP3 products without committing patent infringement in countries that allow softwarové patenty was a common feature of the early stages of adoption of the technology.

The initial near-complete MPEG-1 standard (parts 1, 2 and 3) was publicly available on 6 December 1991 as ISO CD 11172.[88][89] In most countries, patents cannot be filed after prior art has been made public, and patents expire 20 years after the initial filing date, which can be up to 12 months later for filings in other countries. As a result, patents required to implement MP3 expired in most countries by December 2012, 21 years after the publication of ISO CD 11172.

An exception is the United States, where patents in force but filed prior to 8 June 1995 expire after the later of 17 years from the issue date or 20 years from the priority date. A lengthy patent prosecution process may result in a patent issuing much later than normally expected (see submarine patents ). The various MP3-related patents expired on dates ranging from 2007 to 2017 in the United States.[90] Patents for anything disclosed in ISO CD 11172 filed a year or more after its publication are questionable. If only the known MP3 patents filed by December 1992 are considered, then MP3 decoding has been patent-free in the US since 22 September 2015, when U.S. Patent 5,812,672 , which had a PCT filing in October 1992, expired.[91][92][93] If the longest-running patent mentioned in the aforementioned references is taken as a measure, then the MP3 technology became patent-free in the United States on 16 April 2017, when U.S. Patent 6,009,399 , držený[94] a spravuje Technicolor,[95] vypršela. Ve výsledku mnoho bezplatný open source software projects, such as the Operační systém Fedora, have decided to start shipping MP3 support by default, and users will no longer have to resort to installing unofficial packages maintained by third party software repositories for MP3 playback or encoding.[96]

Technicolor (formerly called Thomson Consumer Electronics) claimed to control MP3 licensing of the Layer 3 patents in many countries, including the United States, Japan, Canada and EU countries.[97] Technicolor had been actively enforcing these patents.[98] MP3 license revenues from Technicolor's administration generated about €100 million for the Fraunhofer Society in 2005.[99] In September 1998, the Fraunhofer Institute sent a letter to several developers of MP3 software stating that a license was required to "distribute and/or sell decoders and/or encoders". The letter claimed that unlicensed products "infringe the patent rights of Fraunhofer and Thomson. To make, sell or distribute products using the [MPEG Layer-3] standard and thus our patents, you need to obtain a license under these patents from us."[100] This led to the situation where the CHROMÝ MP3 encoder project could not offer its users official binaries that could run on their computer. The project's position was that as source code, LAME was simply a description of how an MP3 encoder mohl be implemented. Unofficially, compiled binaries were available from other sources.

Sisvel S.p.A.[101] and its United States subsidiary Audio MPEG, Inc. previously sued Thomson for patent infringement on MP3 technology,[102] but those disputes were resolved in November 2005 with Sisvel granting Thomson a license to their patents. Motorola followed soon after, and signed with Sisvel to license MP3-related patents in December 2005.[103] Except for three patents, the US patents administered by Sisvel[104] had all expired in 2015. The three exceptions are: U.S. Patent 5,878,080 , expired February 2017; U.S. Patent 5,850,456 , expired February 2017; a U.S. Patent 5,960,037 , expired 9 April 2017.

In September 2006, German officials seized MP3 players from SanDisk 's booth at the IFA show in Berlin after an Italian patents firm won an injunction on behalf of Sisvel against SanDisk in a dispute over licensing rights. The injunction was later reversed by a Berlin judge,[105] but that reversal was in turn blocked the same day by another judge from the same court, "bringing the Patent Wild West to Germany" in the words of one commentator.[106] In February 2007, Texas MP3 Technologies sued Apple, Samsung Electronics and Sandisk in eastern Texas federal court, claiming infringement of a portable MP3 player patent that Texas MP3 said it had been assigned. Apple, Samsung, and Sandisk all settled the claims against them in January 2009.[107][108]

Alcatel-Lucent has asserted several MP3 coding and compression patents, allegedly inherited from AT&T-Bell Labs, in litigation of its own. In November 2006, before the companies' merger, Alcatel žaloval Microsoft for allegedly infringing seven patents. On 23 February 2007, a San Diego jury awarded Alcatel-Lucent US $1.52 billion in damages for infringement of two of them.[109] The court subsequently revoked the award, however, finding that one patent had not been infringed and that the other was not owned by Alcatel-Lucent; it was co-owned by AT&T and Fraunhofer, who had licensed it to Microsoft, the judge ruled.[110] That defense judgment was upheld on appeal in 2008.[111] Vidět Alcatel-Lucent v. Microsoft Pro více informací.

Alternativní technologie

Other lossy formats exist. Mezi těmito, Pokročilé kódování zvuku (AAC) is the most widely used, and was designed to be the successor to MP3. There also exist other lossy formats such as mp3PRO a MP2. They are members of the same technological family as MP3 and depend on roughly similar psychoacoustic models a MDCT algoritmy. Whereas MP3 uses a hybrid coding approach that is part MDCT and part FFT, AAC is purely MDCT, significantly improving compression efficiency.[112] Many of the basic patenty underlying these formats are held by Fraunhoferova společnost, Alcatel-Lucent, Thomson Consumer Electronics,[112] Zvonek, Dolby, LG Electronics, NEC, NTT Docomo, Panasonic, Sony Corporation,[113] ETRI, JVC Kenwood, Philips, Microsoft, a NTT.[114]

When the digital audio player market was taking off, MP3 was widely adopted as the standard hence the popular name "MP3 player". Sony was an exception and used their own ATRAC codec taken from their MiniDisc format, which Sony claimed was better.[115] Following criticism and lower than expected Walkman sales, in 2004 Sony for the first time introduced native MP3 support to its Walkman players.[116]

There are also open compression formats like Opus a Vorbis that are available free of charge and without any known patent restrictions. Some of the newer audio compression formats, such as AAC, WMA Pro and Vorbis, are free of some limitations inherent to the MP3 format that cannot be overcome by any MP3 encoder.[90]

Besides lossy compression methods, lossless formats are a significant alternative to MP3 because they provide unaltered audio content, though with an increased file size compared to lossy compression. Lossless formats include FLAC (Free Lossless Audio Codec), Apple Lossless a mnoho dalších.

Viz také

Reference

  1. ^ A b "Happy Birthday MP3!". Fraunhofer IIS. 12. července 2005. Citováno 18. července 2010.
  2. ^ "The audio/mpeg Media Type — RFC 3003". IETF. November 2000. Citováno 7. prosince 2009.
  3. ^ "MIME Type Registration of RTP Payload Formats — RFC 3555". IETF. Červenec 2003. Citováno 7. prosince 2009.
  4. ^ A b "A More Loss-Tolerant RTP Payload Format for MP3 Audio — RFC 5219". IETF. Února 2008. Citováno 4. prosince 2014.
  5. ^ "The mp3 team". Fraunhofer IIS. Citováno 12. června 2020.
  6. ^ A b C d E "ISO/IEC 11172-3:1993 – Information technology — Coding of moving pictures and associated audio for digital storage media at up to about 1,5 Mbit/s — Part 3: Audio". ISO. 1993. Citováno 14. července 2010.
  7. ^ A b C d "ISO/IEC 13818-3:1995 – Information technology — Generic coding of moving pictures and associated audio information — Part 3: Audio". ISO. 1995. Citováno 14. července 2010.
  8. ^ "MP3 technology at Fraunhofer IIS". Fraunhofer IIS. Citováno 12. června 2020.
  9. ^ Jayant, Nikil; Johnston, James; Safranek, Robert (October 1993). "Signal Compression Based on Models of Human Perception". Sborník IEEE. 81 (10): 1385–1422. doi:10.1109/5.241504.
  10. ^ "MP3 (MPEG Layer III Audio Encoding)". Kongresová knihovna. 27. července 2017. Citováno 9. listopadu 2017.
  11. ^ A b ISO (November 1991). "MPEG Press Release, Kurihama, November 1991". ISO. Archivovány od originál dne 3. května 2011. Citováno 17. července 2010.
  12. ^ A b C d E ISO (November 1991). "CD 11172-3 – CODING OF MOVING PICTURES AND ASSOCIATED AUDIO FOR DIGITAL STORAGE MEDIA AT UP TO ABOUT 1.5 MBIT/s Part 3 AUDIO" (PDF). Archivovány od originál (PDF) dne 30. prosince 2013. Citováno 17. července 2010.
  13. ^ A b ISO (6 November 1992). "MPEG Press Release, London, 6 November 1992". Chiariglione. Archivovány od originál dne 12. srpna 2010. Citováno 17. července 2010.
  14. ^ A b C ISO (October 1998). "MPEG Audio FAQ Version 9 – MPEG-1 and MPEG-2 BC". ISO. Citováno 28. října 2009.
  15. ^ Mayer, Alfred Marshall (1894). "Researches in Acoustics". London, Edinburgh and Dublin Philosophical Magazine. 37 (226): 259–288. doi:10.1080/14786449408620544.
  16. ^ Ehmer, Richard H. (1959). "Masking by Tones Vs Noise Bands". The Journal of the Acoustical Society of America. 31 (9): 1253. Bibcode:1959ASAJ...31.1253E. doi:10.1121/1.1907853.
  17. ^ Zwicker, Eberhard (1974). "On a Psychoacoustical Equivalent of Tuning Curves". Facts and Models in Hearing. Facts and Models in Hearing (Proceedings of the Symposium on Psychophysical Models and Physiological Facts in Hearing; Held at Tuzing, Oberbayern, April 22–26, 1974). Communication and Cybernetics. 8. str.132 –141. doi:10.1007/978-3-642-65902-7_19. ISBN  978-3-642-65904-1.
  18. ^ Zwicker, Eberhard; Feldtkeller, Richard (1999) [1967]. Das Ohr als Nachrichtenempfänger [The Ear as a Communication Receiver]. Trans. by Hannes Müsch, Søren Buus, and Mary Florentine. Archivovány od originál on 14 September 2000. Citováno 29. června 2008.
  19. ^ Fletcher, Harvey (1995). Speech and Hearing in Communication. Acoustical Society of America. ISBN  978-1-56396-393-3.
  20. ^ A b C Schroeder, Manfred R. (2014). „Bell Laboratories“. Akustika, informace a komunikace: Pamětní svazek na počest Manfreda R. Schroedera. Springer. p. 388. ISBN  9783319056609.
  21. ^ Gray, Robert M. (2010). „Historie digitální řeči v reálném čase v paketových sítích: část II lineárního prediktivního kódování a internetového protokolu“ (PDF). Nalezeno. Trendy procesu signálu. 3 (4): 203–303. doi:10.1561/2000000036. ISSN  1932-8346.
  22. ^ Atal, B.; Schroeder, M. (1978). "Predictive coding of speech signals and subjective error criteria". ICASSP '78. IEEE International Conference on Acoustics, Speech, and Signal Processing. 3: 573–576. doi:10.1109/ICASSP.1978.1170564.
  23. ^ Schroeder, M.R.; Atal, B.S.; Hall, J.L. (December 1979). "Optimizing Digital Speech Coders by Exploiting Masking Properties of the Human Ear". The Journal of the Acoustical Society of America. 66 (6): 1647. Bibcode:1979ASAJ...66.1647S. doi:10.1121/1.383662.
  24. ^ Krasner, M. A. (18 June 1979). Digital Encoding of Speech and Audio Signals Based on the Perceptual Requirements of the Auditory System (Teze). Massachusetts Institute of Technology. hdl:1721.1/16011.
  25. ^ Krasner, M. A. (18 June 1979). "Digital Encoding of Speech Based on the Perceptual Requirement of the Auditory System (Technical Report 535)" (PDF). Archivovány od originál (PDF) on 3 September 2017.
  26. ^ Ahmed, Nasire (Leden 1991). „Jak jsem přišel s diskrétní kosinovou transformací“. Zpracování digitálních signálů. 1 (1): 4–5. doi:10.1016 / 1051-2004 (91) 90086-Z.
  27. ^ Ahmed, Nasire; Natarajan, T .; Rao, K. R. (leden 1974), "Diskrétní kosinová transformace", Transakce IEEE na počítačích, C-23 (1): 90–93, doi:10.1109 / T-C.1974.223784
  28. ^ Rao, K. R.; Yip, P. (1990), Diskrétní kosinová transformace: Algoritmy, výhody, aplikace, Boston: Academic Press, ISBN  978-0-12-580203-1
  29. ^ J. P. Princen, A. W. Johnson a A. B. Bradley: Subpásmové / transformační kódování pomocí návrhů banky filtrů na základě zrušení aliasingu v časové doméně, IEEE Proc. Mezinárodní Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2161–2164, 1987
  30. ^ John P. Princen, Alan B. Bradley: Analysis/synthesis filter bank design based on time domain aliasing cancellation, IEEE Trans. Acoust. Speech Signal Processing, ASSP-34 (5), 1153–1161, 1986
  31. ^ A b Guckert, John (jaro 2012). „Použití FFT a MDCT při kompresi zvuku MP3“ (PDF). University of Utah. Citováno 14. července 2019.
  32. ^ Terhardt, E.; Stoll, G.; Seewann, M. (March 1982). "Algorithm for Extraction of Pitch and Pitch Salience from Complex Tonal Signals". The Journal of the Acoustical Society of America. 71 (3): 679. Bibcode:1982ASAJ...71..679T. doi:10.1121/1.387544.
  33. ^ A b "Voice Coding for Communications". IEEE Journal on Selected Areas in Communications. 6 (2). February 1988.
  34. ^ A b C Genesis of the MP3 Audio Coding Standard in IEEE Transactions on Consumer Electronics, IEEE, Vol. 52, Nr. 3, pp. 1043–1049, August 2006
  35. ^ Brandenburg, Karlheinz; Seitzer, Dieter (3–6 November 1988). OCF: Coding High Quality Audio with Data Rates of 64 kbit/s. 85th Convention of Audio Engineering Society.
  36. ^ Johnston, James D. (February 1988). "Transform Coding of Audio Signals Using Perceptual Noise Criteria". IEEE Journal on Selected Areas in Communications. 6 (2): 314–323. doi:10.1109/49.608.
  37. ^ Y.F. Dehery, et al. (1991) A MUSICAM source codec for Digital Audio Broadcasting and storage Proceedings IEEE-ICASSP 91 pages 3605–3608 May 1991
  38. ^ "A DAB commentary from Alan Box, EZ communication and chairman NAB DAB task force" (PDF).
  39. ^ EBU SQAM CD Sound Quality Assessment Material recordings for subjective tests. 7 October 2008.
  40. ^ A b Ewing, Jack (5 March 2007). "How MP3 Was Born". Bloomberg BusinessWeek. Citováno 24. července 2007.
  41. ^ Witt, Stephen (2016). How Music Got Free: The End of an Industry, the Turn of the Century, and the Patient Zero of Piracy. United States of America: Penguin Books. p. 13. ISBN  978-0143109341. Brandenburg and Grill were joined by four other Fraunhofer researchers. Heinz Gerhauser oversaw the institute´s audio research group; Harald Popp was a hardware specialist; Ernst Eberlein was a signal processing expert; Jurgen Herre was another graduate student whose mathematical prowess rivaled Brandenburg´s own. In later years this group would refer to themselves as "the original six".
  42. ^ Jonathan Sterne (17 July 2012). MP3: The Meaning of a Format. Duke University Press. p. 178. ISBN  978-0-8223-5287-7.
  43. ^ Digital Video and Audio Broadcasting Technology: A Practical Engineering Guide (Signals and Communication Technology) ISBN  3-540-76357-0 p. 144: "In the year 1988, the MASCAM method was developed at the Institut für Rundfunktechnik (IRT) in Munich in preparation for the digital audio broadcasting (DAB) system. From MASCAM, the MUSICAM (masking pattern universal subband integrated coding and multiplexing) method was developed in 1989 in cooperation with CCETT, Philips and Matsushita."
  44. ^ "Status report of ISO MPEG" (Tisková zpráva). Mezinárodní organizace pro normalizaci. September 1990. Archived from originál on 14 February 2010.
  45. ^ "Aspec-Adaptive Spectral Entropy Coding of High Quality Music Signals". E-knihovna AES. 1991. Citováno 24. srpna 2010.
  46. ^ A b "Adopted at 22nd WG11 meeting" (Tisková zpráva). Mezinárodní organizace pro normalizaci. 2 April 1993. Archived from originál dne 6. srpna 2010. Citováno 18. července 2010.
  47. ^ Brandenburg, Karlheinz; Bosi, Marina (February 1997). "Overview of MPEG Audio: Current and Future Standards for Low-Bit-Rate Audio Coding". Journal of the Audio Engineering Society. 45 (1/2): 4–21. Citováno 30. června 2008.
  48. ^ A b C d "MP3 technical details (MPEG-2 and MPEG-2.5)". Fraunhofer IIS. Září 2007. Archivovány od originál on 24 January 2008. "MPEG-2.5" is the name of a proprietary extension developed by Fraunhofer IIS. It enables MP3 to work satisfactorily at very low bitrates and introduces the additional sampling frequencies 8 kHz, 11.025 kHz and 12 kHz.
  49. ^ A b C d E F G h Supurovic, Predrag (22 December 1999). "MPEG Audio Frame Header". Archivovány od originál dne 8. února 2015. Citováno 29. května 2009.
  50. ^ A b C "ISO/IEC 13818-3:1994(E) – Information Technology — Generic Coding of Moving Pictures and Associated Audio: Audio" (ZIP). 11 November 1994. Citováno 4. srpna 2010.
  51. ^ "Fun Facts: Music". The Official Community of Suzanne Vega.
  52. ^ MPEG (25 March 1994). "Approved at 26th meeting (Paris)". Archivovány od originál dne 26. července 2010. Citováno 5. srpna 2010.
  53. ^ MPEG (11 November 1994). "Approved at 29th meeting". Archivovány od originál dne 8. srpna 2010. Citováno 5. srpna 2010.
  54. ^ ISO. "ISO/IEC TR 11172-5:1998 – Information technology – Coding of moving pictures and associated audio for digital storage media at up to about 1,5 Mbit/s – Part 5: Software simulation". Citováno 5. srpna 2010.
  55. ^ "ISO/IEC TR 11172-5:1998 – Information technology – Coding of moving pictures and associated audio for digital storage media at up to about 1,5 Mbit/s – Part 5: Software simulation (Reference Software)" (ZIP). Citováno 5. srpna 2010.
  56. ^ Dehery, Yves-Francois (1994). A high-quality sound coding standard for broadcasting, telecommunications and multimedia systems. The Netherlands: Elsevier Science BV. pp. 53–64. ISBN  978-0-444-81580-4. This article refers to a Musicam (MPEG Audio Layer II) compressed digital audio workstation implemented on a micro computer used not only as a professional editing station but also as a server on Ethernet for a compressed digital audio library, therefore anticipating the future MP3 on Internet
  57. ^ "MP3 Today's Technology". Lots of Informative Information about Music. 2005. Archivovány od originál dne 4. července 2008. Citováno 15. září 2016.
  58. ^ Jonathan Sterne (17 July 2012). MP3: The Meaning of a Format. Duke University Press. p. 202. ISBN  978-0-8223-5287-7.
  59. ^ The heavenly jukebox na Atlantik "To show industries how to use the codec, MPEG cobbled together a free sample program that converted music into MP3 files. The demonstration software created poor-quality sound, and Fraunhofer did not intend that it be used. The software's "source code"—its underlying instructions—was stored on an easily accessible computer at the University of Erlangen, from which it was downloaded by one SoloH, a hacker in the Netherlands (and, one assumes, a Star Wars fan). SoloH revamped the source code to produce software that converted compact-disc tracks into music files of acceptable quality." (2000)
  60. ^ Pop Idols and Pirates: Mechanisms of Consumption and the Global Circulation ... by Dr Charles Fairchild
  61. ^ Technologies of Piracy? - Exploring the Interplay Between Commercialism and Idealism in the Development of MP3 and DivX by HENDRIK STORSTEIN SPILKER, SVEIN HÖIER, page 2072
  62. ^ www.euronet.nl/~soloh/mpegEnc/ (Archive.org )
  63. ^ "About Internet Underground Music Archive".
  64. ^ A b Schubert, Ruth (10 February 1999). "Tech-savvy Getting Music For A Song; Industry Frustrated That Internet Makes Free Music Simple". Seattle Post-Intelligencer. Citováno 22. listopadu 2008.
  65. ^ Giesler, Markus (2008). "Conflict and Compromise: Drama in Marketplace Evolution". Journal of Consumer Research. 34 (6): 739–753. CiteSeerX  10.1.1.564.7146. doi:10.1086/522098. S2CID  145796529.
  66. ^ A b C d Bouvigne, Gabriel (2003). "MP3 Tech — Limitations". Archivovány od originál on 7 January 2011.
  67. ^ "ISO/IEC 11172-3:1993/Cor 1:1996". Mezinárodní organizace pro normalizaci. 2006. Citováno 27. srpna 2009.
  68. ^ Amorim, Roberto (3 August 2003). "Results of 128 kbit/s Extension Public Listening Test". Citováno 17. března 2007.
  69. ^ Mares, Sebastian (December 2005). "Results of the public multiformat listening test @ 128 kbps". Citováno 17. března 2007.
  70. ^ Dougherty, Dale (1 March 2009). "The Sizzling Sound of Music". Radar O'Reilly.
  71. ^ "Meet the Musical Clairvoyant Who Finds Ghosts In Your MP3s". HLUK. 18. března 2015.
  72. ^ "The ghosts in the mp3". 15 March 2015.
  73. ^ "Lost and Found: U.Va. Grad Student Discovers Ghosts in the MP3". UVA Today. 23 February 2015.
  74. ^ The Ghost in the MP3
  75. ^ "Guide to command line options (in CVS)". Citováno 4. srpna 2010.
  76. ^ "JVC RC-EX30 operation manual" (PDF) (in multiple languages). 2004. s. 14. Search – locating a desired position on thedisc (audio CD only) (2004 boombox )
  77. ^ "DV-RW250H Operation-Manual GB" (PDF). 2004. s. 33. • Fast forward and review playback does not work with a MP3/WMA/JPEG-CD.
  78. ^ "Sound Quality Comparison of Hi-Res Audio vs. CD vs. MP3". www.sony.com. Sony. Citováno 11. srpna 2020.
  79. ^ Woon-Seng Gan; Sen-Maw Kuo (2007). Embedded signal processing with the Micro Signal Architecture. Wiley-IEEE Press. p. 382. ISBN  978-0-471-73841-1.
  80. ^ Bouvigne, Gabriel (28 November 2006). "freeformat at 640 kbit/s and foobar2000, possibilities?". Citováno 15. září 2016.
  81. ^ "lame(1): create mp3 audio files - Linux man page". linux.die.net. Citováno 22. srpna 2020.
  82. ^ "Linux Manpages Online - man.cx manual pages". man.cx. Citováno 22. srpna 2020.
  83. ^ A b "GPSYCHO – Variable Bit Rate". LAME MP3 Encoder. Citováno 11. července 2009.
  84. ^ "TwoLAME: MPEG Audio Layer II VBR". Citováno 11. července 2009.
  85. ^ ISO MPEG Audio Subgroup. "MPEG Audio FAQ Version 9: MPEG-1 and MPEG-2 BC". Citováno 11. července 2009.
  86. ^ "LAME Y switch". Hydrogenaudio Knowledgebase. Citováno 23. března 2015.
  87. ^ Rae, Casey. "Metadata and You". Budoucnost hudební koalice. Citováno 12. prosince 2014.
  88. ^ Patel, Ketan; Smith, Brian C.; Rowe, Lawrence A. Performance of a Software MPEG Video Decoder (PDF). ACM Multimedia 1993 Conference.
  89. ^ "The MPEG-FAQ, Version 3.1". 14 May 1994. Archived from originál on 23 July 2009.
  90. ^ A b "A Big List of MP3 Patents (and supposed expiration dates)". tunequest. 26. února 2007.
  91. ^ Cogliati, Josh (20 July 2008). "Patent Status of MPEG-1, H.261 and MPEG-2". Kuro5hin. This work failed to consider patent divisions and continuations.
  92. ^ US Patent No. 5812672
  93. ^ "US Patent Expiration for MP3, MPEG-2, H.264". OSNews.com.
  94. ^ "Patent US6009399 – Method and apparatus for encoding digital signals ... – Google Patents".
  95. ^ "mp3licensing.com – Patents". mp3licensing.com.
  96. ^ "Full MP3 support coming soon to Fedora". 5. května 2017.
  97. ^ "Acoustic Data Compression – MP3 Base Patent". Foundation for a Free Information Infrastructure. 15 January 2005. Archived from originál dne 15. července 2007. Citováno 24. července 2007.
  98. ^ "Intellectual Property & Licensing". Technicolor. Archivovány od originál dne 4. května 2011.
  99. ^ Kistenfeger, Muzinée (July 2007). "The Fraunhofer Society (Fraunhofer-Gesellschaft, FhG)". British Consulate-General Munich. Archivovány od originál on 18 August 2002. Citováno 24. července 2007.
  100. ^ "Early MP3 Patent Enforcement". Chilling Effects Clearinghouse. 1 September 1998. Citováno 24. července 2007.
  101. ^ "SISVEL's MPEG Audio licensing programme".
  102. ^ "Audio MPEG and Sisvel: Thomson sued for patent infringement in Europe and the United States — MP3 players stopped by customs". ZDNet India. 6. října 2005. Archivovány od originál dne 11. října 2007. Citováno 24. července 2007.
  103. ^ "grants Motorola an MP3 and MPEG 2 audio patent license". SISVEL. 21 December 2005. Archived from originál dne 21. ledna 2014. Citováno 18. ledna 2014.
  104. ^ "US MPEG Audio patents" (PDF). Sisvel.
  105. ^ Ogg, Erica (7 September 2006). "SanDisk MP3 seizure order overturned". Zprávy CNET. Archivovány od originál dne 4. listopadu 2012. Citováno 24. července 2007.
  106. ^ "Sisvel brings Patent Wild West into Germany". IPEG blog. 7. září 2006. Citováno 24. července 2007.
  107. ^ "Apple, SanDisk Settle Texas MP3 Patent Spat". IP Law360. 26. ledna 2009. Citováno 16. srpna 2010.
  108. ^ "Baker Botts LLP Professionals: Lisa Catherine Kelly — Representative Engagements". Baker Botts LLP. Archivovány od originál on 10 December 2014. Citováno 15. září 2016.
  109. ^ "Microsoft faces $1.5bn MP3 payout". BBC novinky. 22. února 2007. Citováno 30. června 2008.
  110. ^ "Microsoft wins reversal of MP3 patent decision". CNET. 6. srpna 2007. Citováno 17. srpna 2010.
  111. ^ "Court of Appeals for the Federal Circuit Decision" (PDF). 25 September 2008. Archived from originál (PDF) on 29 October 2008.
  112. ^ A b Brandenburg, Karlheinz (1999). „Vysvětlení MP3 a AAC“. Archivovány od originál (PDF) on 19 October 2014.
  113. ^ "Via Licensing Announces Updated AAC Joint Patent License". Obchodní drát. 5. ledna 2009. Citováno 18. června 2019.
  114. ^ "AAC Licensors". Via Corp. Citováno 6. července 2019.
  115. ^ https://www.nytimes.com/1999/09/30/technology/news-watch-new-player-from-sony-will-give-a-nod-to-mp3.html
  116. ^ https://www.cnet.com/reviews/sony-nw-e100-review/

Další čtení

externí odkazy