MP3

MPEG-1 Audio Layer 3
Rozšíření .mp3[jeden]
MIME typ audio/mpeg [2] , audio/MPA [3] a audio/mpa-robust [4]
Vývojář Fraunhofer Society , Karlheinz Brandenburg , Heinz Gerhäuser [d] , Bernhard Grill [d] a Harald Popp [d]
zveřejněno 1993
Typ formátu audio formát
 Mediální soubory na Wikimedia Commons

MP3 (přesněji anglicky  MPEG-1/2/2.5 Layer 3 ; ale ne MPEG-3 ) je formát souboru vyvinutý týmem MPEG pro ukládání zvukových informací . Formát byl licencován , ale 23. dubna 2017 vypršela platnost všech patentů a přestaly platit licenční poplatky [5] .

MP3 je jedním z nejběžnějších a nejoblíbenějších formátů kódování digitálního zvuku . Je široce používán v sítích pro sdílení souborů pro hodnocení stahování hudby . Formát lze přehrát na téměř všech populárních operačních systémech , na většině přenosných audio přehrávačů a podporují jej také všechny moderní modely hudebních center a přehrávačů DVD .

Formát MP3 používá algoritmus ztrátové komprese navržený tak, aby výrazně snížil množství dat potřebných k přehrání nahrávky a poskytl kvalitu reprodukce zvuku blízkou originálu (podle názoru většiny posluchačů), ale se znatelnou ztrátou kvality při poslechu. na kvalitním zvukovém systému. Principem komprese je snížení přesnosti některých částí zvukového toku, který je na všudypřítomném zařízení reprodukce zvuku s nízkou věrností (například dominantní většina přenosných zařízení, zvukové karty, sterea, autorádia) pro sluch prakticky nerozeznatelný. a další nespeciální zařízení), stejně jako pro osoby staršího věku, v důsledku přirozených změn ve sluchadle souvisejících s věkem, ale ve většině případů jsou jasně rozeznatelné na hi-fi audio zařízení . Tato metoda se nazývá percepční kódování [6] . Současně je v první fázi sestrojen zvukový diagram ve formě sekvence krátkých časových intervalů, poté jsou z něj odstraněny informace nerozlišitelné lidským uchem a zbývající informace jsou uloženy v kompaktním formulář. Tento přístup je podobný kompresní metodě používané při kompresi obrázků do formátu JPEG . [ upřesnit ] Výsledkem vytvoření MP3 s průměrným datovým tokem 128 kbps je soubor, který je přibližně 1/11 velikosti původního souboru CD-Audio ( nekomprimovaný formát CD-Audio samotný má bitovou rychlost 1411,2 kbps). Soubory MP3 lze vytvářet s vysokou nebo nízkou přenosovou rychlostí, což ovlivňuje kvalitu výsledného souboru.

Historie

MP3 vyvinula pracovní skupina Fraunhoferova institutu ( německy  Fraunhofer-Institut für Integrierte Schaltungen ) vedená Karlheinzem Brandenburgem a Univerzitou Erlangen-Norimberk ve spolupráci s AT&T Bell Labs a Thomson (Johnson, Stoll, Deeri atd.) .

Vývoj MP3 byl založen na experimentálním kodeku ASPEC (Adaptive Spectral Perceptual Entropy Coding). První MP3 kodér byl L3Enc , vydaný v létě 1994. O rok později se objevil první softwarový MP3 přehrávač  - Winplay3 .

Při vývoji algoritmu byly provedeny testy na zcela specifických populárních skladbách. Hlavní písní se stala " Tom's Diner " Suzanne Vega . Odtud vtip, že „MP3 bylo vytvořeno výhradně pro pohodlný poslech oblíbené Brandenburgovy písně“ a Vega se začala nazývat „matka MP3“.

Téměř kompletní standard se objevil ve veřejné doméně 6. prosince 1991 .

23. dubna 2017 vypršela platnost posledních patentů na formát a byly zastaveny licenční poplatky od dodavatelů softwaru a embedded zařízení [7] [8] . Fraunhoferův institut oznámil ukončení licencování formátu na svých oficiálních stránkách [9] . A přestože je formát mp3 mezi uživateli stále velmi populární, většina rozhlasových stanic a televizních kanálů přešla na používání moderních kodeků, které poskytují lepší kompresi a menší ztrátu kvality zvuku.

Popis formátu

Stejně jako formát JPEG používá MP3 spektrální ořez podle psychoakustického modelu . Zvukový signál je rozdělen na segmenty stejné délky, z nichž každý je po zpracování zabalen do vlastního rámce (rámce). Rozklad do spektra vyžaduje spojitost vstupního signálu, proto se pro výpočty používají i předchozí a následující snímky. Ve zvukovém signálu jsou harmonické s menší amplitudou a harmonické, které leží poblíž intenzivnějších - takové harmonické jsou odříznuty, protože průměrné lidské ucho nemůže vždy určit přítomnost nebo nepřítomnost takových harmonických. Tato vlastnost sluchu se nazývá maskovací efekt . Je také možné nahradit dva nebo více blízkých vrcholů jedním zprůměrovaným (což zpravidla vede ke zkreslení zvuku). Kritérium omezení je určeno požadavkem na výstupní proud. Vzhledem k tomu, že je relevantní celé spektrum, nejsou vysokofrekvenční harmonické odříznuty, jako u JPEG , ale pouze selektivně odstraněny, aby se snížil tok informací v důsledku vzácnosti spektra. Po spektrálním "sweepingu" jsou aplikovány matematické metody komprese a balení do rámců. Každý snímek může mít více kontejnerů, což vám umožňuje ukládat informace o více tocích (levý a pravý kanál nebo střední kanál a rozdíl kanálů). Kompresní poměr lze měnit, a to i v rámci jednoho snímku. Rozsah možných hodnot bitrate je 8-320 kbit/s .

MP3 a "Kvalita audio-CD"

V minulosti se všeobecně věřilo, že záznam o rychlosti 128 kbps je vhodný pro hudbu určenou k poslechu většiny lidí a poskytuje kvalitu zvuku Audio-CD . Ve skutečnosti je vše mnohem složitější. Za prvé, kvalita výsledné MP3 závisí nejen na bitrate, ale také na kódovacím programu ( kodeku ) (norma neuvádí kódovací algoritmus, popisuje pouze způsob prezentace). Za druhé, kromě převládajícího režimu CBR (Constant Bitrate) (ve kterém je jinými slovy každá sekunda zvuku zakódována stejným počtem bitů) existují režimy ABR (Average Bitrate) a VBR (Variable Bitrate). Za třetí, hranice 128 kb/s je libovolná, protože byla zvolena v době vzniku formátu, kdy byla kvalita přehrávání většiny digitálních zvukových systémů zpravidla nižší než v současnosti. Zhruba řečeno, tvrzení o „Audio-CD kvalitě“ při 128 kb/s odpovídá hranici relativně pohodlného poslechu hudby, pod níž dochází u všech programů kódování MP3 k silné degradaci zvuku.

V roce 2008 jsou nejčastější MP3 soubory s bitrate 192 kbps, což může nepřímo naznačovat, že většina považuje tento bitrate za dostatečný. Skutečná vnímaná „kvalita“ závisí na zdrojovém zvukovém souboru, posluchači a jeho zvukovém systému. Někteří milovníci hudby raději komprimují hudbu v „maximální kvalitě“ – 320 kb/s, nebo dokonce přejdou na bezztrátové kodeky, jako je FLAC . Mezi milovníky hudby / audiofily také panuje názor , že některé vzorky (fragmenty zvukového záznamu) nejsou vhodné pro vysoce kvalitní ztrátovou kompresi: při všech možných přenosových rychlostech není obtížné odlišit komprimovaný zvuk od originálu. Existují však i vážné námitky [10] :

Je zcela zřejmé, že (berme to s rezervou) by pro pohodlné vnímání hudby z CDA zdroje (44 kHz/16 bit/stereo) měl bitrate 256 kbps v drtivé většině případů více než stačit. Je to zřejmé nejen z mého domácího testu, ale také z rozboru profesionálních slepých testů (např. německé vydání „c't“, červen 2000): ani v nich nejsou odborníci vždy schopni „ hádej“ zvuk komprimovaný na 256 kbps, navíc testování probíhá ve speciálně připravených místnostech a na drahém zařízení a odborník ví, co má „poslouchat“, aby cítil kompresi.

Režimy a možnosti kódování

Existují tři verze formátu MP3 pro různé potřeby: MPEG-1 , MPEG-2 a MPEG-2.5 . Liší se v možných rozsazích bitové rychlosti a vzorkovací frekvence:

Režimy ovládání kódování audio kanálu

Protože formát MP3 podporuje dvoukanálové (stereo) kódování, existují 4 režimy:

CBR

CBR je zkratka pro Constant Bit Rate , tedy konstantní bitovou rychlost , která je nastavena uživatelem a nemění se, když je dílo zakódováno. Každá sekunda dílu tedy odpovídá stejnému počtu kódovaných bitů dat (i při kódování ticha). CBR může být užitečné pro toky médií s omezeným kanálem; v takovém případě kódování využívá plné možnosti datového kanálu. Pro ukládání není tento režim kódování optimální, protože nedokáže přidělit dostatek místa pro složité segmenty původního produktu a plýtvá místem na jednoduché segmenty. Vyšší datové toky (nad 256 kbps ) mohou tento problém vyřešit přidělením více prostoru pro data, ale také úměrným zvýšením velikosti souboru.

VBR

VBR je zkratka pro Variable Bit Rate , což je proměnná bitová rychlost nebo proměnná bitová rychlost , která je dynamicky měněna programem kodéru během kódování v závislosti na saturaci kódovaného zvukového materiálu a kvalitě kódování nastavené uživatelem (např. , ticho je zakódováno s minimální přenosovou rychlostí). Tato metoda kódování MP3 je nejprogresivnější a stále se vyvíjí a zdokonaluje, protože zvukový materiál různé saturace lze kódovat s určitou kvalitou, která je obvykle vyšší, než když je průměrná hodnota nastavena v metodě CBR. Navíc je velikost souboru snížena díky fragmentům, které nevyžadují vysokou bitovou rychlost. Nevýhodou tohoto způsobu kódování je obtížnost předpovědi velikosti výstupního souboru. Tato nevýhoda kódování VBR je však ve srovnání s jeho výhodami zanedbatelná. Další nevýhodou je, že VBR považuje tišší fragmenty za „bezvýznamné“ zvukové informace, takže se ukazuje, že pokud budete poslouchat velmi nahlas, budou tyto fragmenty nekvalitní, zatímco CBR vytváří tiché a hlasité fragmenty se stejným datovým tokem.

Formát VBR se neustále zlepšuje, a to díky neustálému zlepšování matematického modelu kodeků, zejména po vydání aktualizované verze bezplatného kodeku LAME MP3 (verze 3.99.3), kódování s variabilním bitrate, podle vývojářů , je kvalitativně lepší než CBR a ještě více ABR. Formát CBR 320 kbps je však stále umístěn jako garant maximální kvality (používá se například v předvolbě "--preset insane").

ABR

ABR znamená Average Bit Rate , tedy průměrná bitová rychlost , což je hybrid VBR a CBR: bitovou rychlost v kb/s nastavuje uživatel a program ji mění a neustále ji upravuje na zadanou bitovou rychlost. Kodek tedy bude pečlivě používat maximální a minimální možné hodnoty bitrate, protože riskuje, že se nevejde do uživatelem zadaného bitrate. To je jasná nevýhoda této metody, protože ovlivňuje kvalitu výstupního souboru, který bude o něco lepší než při použití CBR, ale horší než při použití VBR. Na druhou stranu tato metoda umožňuje nejflexibilnější nastavení bitrate (může to být libovolné číslo mezi 8 a 320, u metody CBR pouze násobky 16) a výpočet velikosti výstupního souboru.

Kodeky

Typy programů potřebných pro převod formátů souborů. Nejběžnější kodeky MP3.

Struktura souboru

Soubor MP3 se skládá z několika fragmentů MP3 (rámců), které se zase skládají z hlavičky a datového bloku. Takový sled fragmentů se nazývá elementární proud . Fragmenty nejsou nezávislé prvky ("rezervoár bajtů"), a proto je nelze libovolně načítat. Datový blok souboru MP3 obsahuje komprimované zvukové informace ve formě frekvencí a amplitud. Výše uvedený diagram ukazuje, že záhlaví MP3 se skládá ze značky, která se používá k nalezení správného fragmentu MP3. Následuje bit indikující, že se používá standard MPEG , a dva bity indikující, že se používá vrstva 3; jinými slovy, definuje MPEG-1 Audio Layer 3 nebo MP3. Následující hodnoty se mohou lišit v závislosti na typu souboru MP3. Norma ISO / IEC 11172-3 definuje rozsah hodnot pro každou sekci záhlaví spolu s obecnou specifikací pro ni. Většina souborů MP3 v současnosti obsahuje metadata ID3 , která předcházejí nebo následují po segmentu MP3; jsou také znázorněny ve schématu.

Tagy

Tagy (z anglického  tag  - label, label, tag) - tagy v rámci hranic MP3 souboru (na začátku a/nebo na konci). Mohou obsahovat informace o autorství, albu, roce vydání, obalu alba a textu a další informace o skladbě. V pozdějších verzích tagů je možné ukládat další data o zvukovém záznamu. Existují různé verze značek (viz: ID3 ).

Nevýhody

Technické nedostatky. Počet zvukových kanálů je omezen na dva, na rozdíl od AAC a Vorbis . Existuje také pevný limit pro možnou vzorkovací frekvenci: neexistuje způsob, jak nastavit libovolnou vzorkovací frekvenci. Maximální vzorkovací frekvence pro MP3 je 48 kHz, zatímco pro Vorbis je maximální vzorkovací frekvence 192 kHz a pro AAC je 96 kHz. V MP3 je možné ukládat pouze při následujících vzorkovacích frekvencích: 8000, 11025, 12000, 16000, 22050, 24000, 32000, 44100 a 48000 Hz.

Právní omezení. Patent na MP3 vlastní společnost Alcatel-Lucent , která pro některá použití formátu vyžadovala licencování (platnost patentů souvisejících s MP3 vypršela 23. dubna 2017 ).
V USA jsou vynálezy zveřejňovány déle než rok[ kdy? ] , nelze patentovat; u patentů vydaných před 8. červnem 1995 (téměř úplný standard byl veřejně dostupný 6. prosince 1991) však bylo možné jejich platnost prodloužit. Známé patenty týkající se dešifrování MP3 vypršely v USA v prosinci 2012; podle jiných údajů, uvažujících pouze patenty přihlášené před prosincem 1992, se tak v září 2015 nestalo [ 12] [13] .

V roce 2017 vypršela platnost všech patentů souvisejících s tímto formátem, protože nebyly držiteli autorských práv obnoveny [5] .

Viz také

Poznámky

  1. https://www.file-extension.info/format/mp3
  2. Nilsson M. The audio/mpeg Media Type  (anglicky) - IETF , 2000. - 5 s. doi : 10.17487/RFC3003
  3. Casner S., Hoschka P. Registrace typů MIME RTP Payload Formats  (anglicky) - IETF , 2003. - 45 s. doi : 10.17487/RFC3555
  4. Finlayson R. A Loss-Tolerant RTP Payload Format for MP3 Audio  (anglicky) - IETF , 2008. - 22 s. doi : 10.17487/RFC5219
  5. ↑ 1 2 Orlowski, Andrew. MP3 „zemřelo“ a nikdo si toho nevšiml: Platnost klíčových patentů na golden oldie tech  (anglicky) vyprší . The Register (16. května 2017). Získáno 26. března 2020. Archivováno z originálu dne 26. března 2020.
  6. Nikil Jayant, James Johnston, Robert Šafranek. Komprese signálu na základě modelů lidského vnímání   // Proceedings of IEEE : deník. - 1992. - říjen ( roč. 81 , č. 10 ). - S. 1385-1422 . - doi : 10.1109/5.241504 .
  7. Konec éry mp3. Vývojáři formátu mp3 oznámili jeho " smrt "
  8. MP3 konečně ve veřejné doméně Archivní kopie z 3. května 2017 na Wayback Machine
  9. mp3  (anglicky) . Fraunhoferův institut pro integrované obvody IIS. Staženo 15. 5. 2017. Archivováno z originálu 22. 3. 2018.
  10. Phobomania Archived 19. července 2014 v Wayback Machine Computerra Magazine , 14. prosince 2008
  11. Joint Stereo . Kódování zvuku (28. ledna 2015). Staženo 11. července 2018. Archivováno z originálu 11. července 2018.
  12. Cogliati, Josh Patent Status MPEG-1, H.261 a MPEG-2 . Kuro5hin (20. července 2008). Archivováno z originálu 25. února 2013. Tato práce nezohlednila patentová rozdělení a pokračování.
  13. Platnost patentu USA pro MP3, MPEG-2, H.264 . Datum přístupu: 15. února 2013. Archivováno z originálu 2. dubna 2013.

Odkazy