HEVC Audio: опираясь на прошлое, движемся в будущее!
Журналисты издания TV Technology попытались разобраться, какой же аудиокодек будет использоваться в телевидении будущего.
Когда мы обсуждаем стандарты компрессии видео – такие, как MPEG-2 и H.264 – большинство из нас предпочитает думать сугубо о видео-аспектах, не особо задумываясь о звуке. Несомненно, звук тоже важен, но он просто… есть.
Сегодня, когда в мире наблюдается стремление внедрить нечто лучшее, чем существующая компрессия MPEG-4/H.264, используемая в Blu-ray дисках и большинстве цифровых видеокамер, стоит потратить немного больше времени на изучение аудио-функций стандартов видеокомпрессии нового поколения. Наиболее вероятным претендентом на роль кодека №1 для компрессии видео нового поколения является кодек HEVC (кодирование видео с высокой эффективностью), известный также в классификации ITU как H.265, но не забывайте о том, что это – кодек для компрессии видео, а не звука. Разработкой системы компрессии звука, который сопровождает видео в стандарте HEVC, занимается совершенно иная команда – не та, которая работает над кодеком HEVC/H.265.
Существует также конкурирующий стандарт компрессии, разрабатываемый компанией Google и получивший названиеVP9, который будет встроен в многие Web-браузеры. Использование кодека VP9 не требует уплаты роялти и, по мнению Google, данный кодек будет обеспечивать лучшую производительность в сравнении с HEVC/H.265 – как в плане эффективности компрессии, так и в плане качества картинки. Тем не менее, похоже, что именно H.265 будет использоваться в сфере профессионального видео и телевещания, и это несмотря на необходимость уплаты роялти при использовании стандарта.
Не стоит также забывать ещё об одном стандарте компрессии видео – недавно появившемся на горизонте кодеке Daala, который совместно разрабатывают компании Xiph.Org Foundation и Mozilla Corp. Основатель компании Xiph.Org утверждает, что производительность кодека Daala будет на голову выше производительности HEVC и VP9, однако данный стандарт не будет готов в текущем году. Любопытно, что компания Xiph.Org Foundation в своё время разработала стандарт FLAC (свободный кодек для компрессии звука без потери качества), заслуживший великолепную репутацию благодаря своей производительности.
ВДВОЕ БОЛЕЕ ЭФФЕКТИВНЫЙ
С точки зрения видеопараметров, эффективность кодека H.265 примерно вдвое выше эффективности H.264, который в свою очередь был примерно вдвое эффективнее кодека MPEG-2. Иными словами, видео-поток, компрессированный с битрейтом 20 мегабит в секунду при помощи кодека MPEG-2, можно компрессировать с битрейтом 10 мегабит в секунду при использовании кодека H.264 и на скорости 5 мегабит в секунду при использовании кодека H.265. Разумеется, это очень упрощённый подход, но он вполне подойдёт в качестве практического примера.
Кодек MPEG-2 дал большинству из нас представление о стандарте MP3, используемом для кодирования звука. Термин MP3, впервые представленный в рамках компрессии MPEG-1, указывает на кодек MPEG Audio Layer III. Он стал популярным стандартом компрессии аудио, однако параллельно с ним используются и другие стандарты. Как и в случае с материнским стандартом компрессии видео, стандарт MP3 обеспечивает сжатие «с потерями», а это означает, что данный кодек изменяет аудио в процессе компрессии, и данные изменения являются необратимыми.
Стандарт MP3 имеет широкий диапазон настроек, влияющих на конечное качество аудио, включая настройку частоты дискретизации и битовой скорости. В большинстве случаев звук в MP3 семплируется с частотой дискретизации 32, 44.1 и 48 кГц и компрессируется на скорости от 56 до 384 килобит в секунду. При битовой скорости 128 килобит в секунду и частоте дискретизации 44.1 кГц итоговый MP3 составляет примерно 9.1% от несжатого CD-файла. Компрессия в стандарте MP3 на битовой скорости 320 килобит в секунду позволяет создать битовый поток, размер которого составляет примерно 23% от некомпрессированного CD-файла.
Кодек AAC (продвинутое кодирование аудио) был разработан следом за MP3 с учётом опыта, полученного в процессе разработки и эксплуатации изначально популярного формата. В целом использование кодека AAC даёт лучшее качество звука в сравнении с MP3 при одинаковой битовой скорости. У кодека AAC также имеется своего рода «ответвление», известное как кодек высокоэффективного продвинутого кодирования аудио (HE-AAC), который используется в стандартах мобильного телевидения – таких, как DVB-H и ATSC-M/H. Подобно MP3, кодек AAC является форматом компрессии с потерей качества и обладает рядом настроек, подобных настройкам MP3.
Dolby Digital и AC-3 – два названия, используемые для обозначения одного формата обработки звука. Кодек AC-3, разработанный в Dolby Laboratories, иногда называют «аудио кодек 3» или «продвинутый кодек 3». Все формы AC-3 поддерживают объёмный звук, при этом первоначальная версия позволяла включать в файл 5.1 канала, а более поздняя модификация – Dolby Digital Plus – уже поддерживала звук в режиме 7.1. Усовершенствованная версия Dolby Digital Plus, получившая название E-AC-3, позволяет передавать звук в режиме 13.1. Более высокая эффективность кодека E-AC-3 означает, что он может обеспечить приемлемый 5.1-канальный звук в потоке с битовой скоростью 256 килобит в секунду.
АУДИОФОРМАТЫ СЛЕДУЮЩЕГО ПОКОЛЕНИЯ
Основными форматами сжатия аудио, связанными с HEVC/H.265, являются MPEG-H и AC-4, однако в ближайшие месяцы к ним могут добавиться и другие кодеки. Кодек MPEG-H можно назвать «AAC на стероидах», а в прошлом году в ATSC объявили, что кодек MPEG-H 3D является одним из трёх, предлагаемых в качестве стандартов аудио для системы ATSC 3.0. В своей базовой модификации MPEG-H будет поддерживать восьмиканальное аудио. Кодек имеет также много других функций, включая возможность обеспечить передачу метаданных громкости.
Стандарт Dolby AC-4 также представляет собой достаточно продвинутый кодек, развившийся из AC-3. В сравнении с AC-3 кодек AC-4 примерно на 50% повышает эффективность компрессии для вещания. Кодек AC-4 уже прошёл стандартизацию в Европейском институте телекоммуникационных стандартов, а также был принят консорциумом Digital Video Broadcasting Project и британским бюро стандартизации. Среди функций, поддерживаемых стандартом, – встроенная поддержка усовершенствования диалога, разумная громкость, улучшенный контроль динамического диапазона, а также более эффективная поддержка различных языков и услуг описания.
Взаимодействие данных кодеков с HEVC в настоящее время ещё прорабатывается, и в итоге должно стать частью окончательной версии стандарта ATSC в Соединённых Штатах. На последнем мероприятии ATSC Boot Camp, прошедшем в Вашингтоне, Джим Стажинский из NBC провёл презентацию текущего состояния дел с кодеком MPEG-H, а также рассказал, что нас ожидает в будущем.
Подобно кодекам компрессии видео, аудиокодеки становятся всё более эффективными с точки зрения компрессии звука в меньших потоках. Это позволит кодекам, которые в будущем начнут использоваться в сфере телевещания, обеспечивать наличие большего количества аудиоканалов и давать вещателям больший выбор в соотношении количества и компромиссов по качеству.