Звук вокруг: смотрим, слушаем, погружаемся

Развитие современных мультимедийных технологий позволило обеспечить зрителю невиданный ранее уровень вовлеченности в процесс интерактивного восприятия видео- и аудиопрограмм. Причем, если до недавнего времени все большая вовлеченность достигалась за счет эволюционного роста параметров видеоизображения, то сегодняшние технологии виртуальной реальности (VR) позволили перейти на принципиально иной уровень качества эффекта присутствия.

Одним из наиболее перспективных и быстро развивающихся направлений VR является «телевидение 360°» («TV 360°»), которое предоставляет зрителю картинку в пределах полной полусферы с возможностью выбора любого ракурса просмотра изображения. Такая возможность дает высочайший уровень эффекта присутствия и вовлеченности зрителя в видеоконтент.

ПЕРВЫЕ ПОПЫТКИ

Предшественниками системы можно считать круговые кинопанорамы, в которых на окружающих зрителей кольцевых киноэкранах несколько кинопроекторов синхронно демонстрировали видеопрограммы, совокупность которых образовывала непрерывное изображение с обзором по горизонтали 360°. В 60-е и 70-е годы на ВДНХ СССР в Москве был построен специальный кинотеатр «Круговая кинопанорама», в котором с большим успехом демонстрировался пятнадцатиминутный панорамный кинофильм «Возьмите нас с собой, туристы» содержащий, как сказали бы сегодня, рекламные ролики туристических достопримечательностей СССР. При этом панорамному изображению вполне соответствовал панорамный звук, который исходил из нескольких громкоговорителей, установленных по всему кинозалу.

Другим заметным событием в использовании технологии «кино 360°» стало празднование в москве в 1976 году 200-летия открытия Америки в парке Сокольники. В рамках этих мероприятий американская сторона даже построила небольшой панорамный кинотеатр, в котором демонстрировался фильм о 200-летней истории Америки. Надо признать, зрелище было весьма эффектным, так как фильм состоял из панорамных пролетов над главными и наиболее узнаваемыми символами США: Нью-Йорком, Лас-Вегасом, Гранд-Каньоном и т. д.

Однако сложность создания панорамных фильмов и технический уровень тех лет не позволили этой технологии получить массовое развитие.

Появление персональных и игровых компьютеров в конце 80-х годов, когда геймеры стали использовать специальные шлемы со встроенными дисплеями для более глубокого погружения в игровой мир, вновь привлекло внимание к технологии VR. Однако крайне примитивное, по современным меркам, качество картинки и низкое быстродействие процессоров игровых компьютеров не вдохновили пользователей, и эта забава так же, как и панорамные кинотеатры, быстро сошла на нет. Сегодня высококачественные LED- и OLED-дисплеи высокого разрешения, быстрые многоядерные процессоры и широкополосные каналы связи создали предпосылки к новому пришествию технологий VR, в том числе и в телевизионном вещании.

НЕ ВИДЕО ЕДИНЫМ

Слов нет, красочная интерактивная картинка телевидения 360° с возможностью выбора зрителем точки и ракурса просмотра буквально завораживает. Однако, несмотря на то, что человек свыше 80% информации об окружающем мире получает посредством зрения, для полного погружения в виртуальные иллюзии необходимо обеспечить согласованное воздействие на другие органы чувств, в первую очередь слух и тактильное восприятие. Эффективность комплексного воздействия на сенсорные системы человека иллюстрируют различные кинотеатры 4D, 5D и т.д., в которых зрителей размещают на качающихся платформах и в вибрирующих креслах, обдувают согласно сценарию фильма вентиляторами, поливают в нужный момент водой и т. д. Идея в принципе неплохая, но ее исполнение в подавляющем большинстве случаев не выдерживает никакой критики. В результате больше 10-20 минут просмотра такого «кино» мало кто выдерживает.

Многочисленные эксперименты, в том числе проведенные специалистами компании Dolby Labs, показали, что если виртуальное видео дополнить окружающим звуком, эффект присутствия многократно возрастет. Поэтому для создания по-настоящему погружающей в действие виртуальной реальности одного только окружающего видео недостаточно. Его обязательно требуется дополнить окружающим звуком.

Долгие годы считалось, что двухканальных систем стереозвука будет вполне достаточно для создания убедительных иллюзий «присутствия». При просмотре видеопрограмм на кинескопных телевизорах с экранами размером 25-32″ два канала действительно позволяли обеспечить пространственную локализацию виртуальных звуковых образов. Но с ростом размера экранов LCD- и PDP-телевизоров и особенно с широким распространением проекторов в «домашних кинотеатрах» в 90-е годы о пространственном звучании стали говорить уже применительно к пятиканальным системам объемного звука. В них мнимые источники звука располагались уже по всей плоскости между акустическими системами. основным источником видеопрограмм стал сначала DVD-, а затем и Blu-Ray-проигрыватель, а для записи на диски многоканального звука использовались системы Dolby Digital/DTS и Dolby Digital True HD/ DTS-HD master соответственно.

Принцип записи многоканального стереозвука во всех этих системах был одинаков: звук исходных пяти или семи каналов сжимался по тому или иному алгоритму компрессии и передавался по каналу вещания или записывался на носитель (видеокассету, DVD- или Blu-Ray-диски). при этом расположение мнимого (виртуального) источника звука определялось уровнем громкости его воспроизведения всеми динамиками. поэтому виртуальное звуковое пространство представляло собой матрицу уровней громкости отдельных источников. Само звуковое пространство находилось в горизонтальной плоскости, хотя предпринимались различные попытки построить трехмерное звуковое поле с помощью вертикальных динамиков.

ДЕЛО ТЕХНИКИ

Около 5-10 назад в AV-ресиверах, оснащенных декодерами Dolby Pro Logic IIz, Audyssey и DTS Neo: X, использовалась архитектура звукового тракта 7.1 или 9.1 с семью и девятьюнезависимыми усилителями мощности, два из которых можно переназначить на роль «вертикальных». Сигналы для них при помощи упомянутых выше декодеров синтезируются DSP-процессором ресивера из исходной «одноплоскостной» фонограммы 5.1/7.1.

Расположение акустических систем в звуковом тракте 9.1

Апофеозом многоканальных звуковых систем с «третьим измерением» стала система звукового сопровождения 22.2 компании NHK для системы телевидения Ultra HDTV 8 К. Как видно из названия, она включала в себя 22 раздельных звуковых канала и два канала для низкочастотных эффектов. При этом для создания третьего измерения по высоте акустика располагается в три яруса:

  • нижний ярус состоит из трех фронтальных каналов;
  • средний, на уровне ушей слушателей, включает 10 каналов;
  • верхний — под потолком помещения.

Архитектура системы многоканального звука 22.2 для 8К Super Hi-Vision компании NHK

Это позволяло получить в кинозале однородное трехмерное поле, полностью соответствующее по натуралистичности изображению на экране Ultra HDTV. Однако приниципиально и эта система не отличалась от обычных систем многоканального звука 5.1 и 7.1, так как многоканальный звук на приемной стороне создавался за счет разности громкости звучания источников, воспроизводимых динамиками.

Настоящей революцией в многоканальном звуке стал переход от интенсивного метода передачи громкости виртуальных источников в динамиках к объектно-ориентированному методу передачи звуковой панорамы, реализованому компанией Dolby Labs в новом поколении звуковых систем Dolby Atmos.

Передача звукового сигнала и мета данных в одном цифровом потоке системы Dolby Atmos

 

Ключевое понятие Dolby Atmos — Immersion (погружение) — действительно отражает ее суть. Разработчики поставили задачу: обеспечить полное погружение зрителей в атмосферу фильма при помоши предельно реалистичного воспроизведения его звукового поля. Для этого используется так называемый объектный метод описания звуковой сцены, при котором каждый отдельный звуковой источник описывается своим индивидуальным файлом.

Система Dolby Atmos предусматривает возможность передачи до 128 одновременных аудиопотоков несжатого звука, каждый из которых сответствует отдельному независимому источнику на звуковой сцене. при этом одновременно с цифровым звуковым потоком передаются специальные метаданные, которые в полярной систем координат описывают текущее положение источника на сферической звуковой сцене.

На приемной стороне декодер на основе анализа цифровых потоков отдельных источников звука и их полярных координат синтезирует общую звуковую сцену, расставляя звучащие объекты в соответствии с их текущими координатами.

Принцип построения объемной звуковой сцены в системе Dolby Atmos

Это позволяет реализовать принципиально новую технологию гибридного микширования, задавая перемещению виртуальных источников звука такую же траекторию, как и у подвижных объектов, которую видят зрители. Для создания трехмерной звуковой сферы используются не только фронтальные и тыловые аудиоколонки, но и динамики, монтируемые на потолке кинозала или домашнего кинотеатра.

Типовая схема расположения акустических систем в кинотеатре Dolby Atmos

Более того, технология Dolby Atmos позволяет динамически в режиме реального времени пересчитывать звуковую панораму в соответствии с поворотом головы зрителя в системах ТV 360°. Для этого достаточно подать сигналы гиродатчиков поворота головы, используемых для навигации по видеопространству, в декодер. И он будет синхронно с изображением перемещать местоположение зрителя по сферическому виртуальному звуковому пространству. Например, во время трансляции футбольного матча можно перенести зрителя на трибуны. Одним словом, с появлением объектно-ориентированных систем «звука вокруг» у технологии виртуальной реальности может открыться второе дыхание.

Как же воспроизвести эту звуковую панораму? Для этого уже не потребуется городить многоэтажную конструкцию из акустических систем с расположением вертикальных колонок под потолком помещения.

В прошлом году компания Yamaha разработала и уже серийно выпускает так называемые саундбары с поддержкой декодирования многоканального звука Dolby Atmos. Например, модель Sound Bar Yamaha YSP-5600, которая представляет собой совокупность установленных в одном корпусе 48 независимых динамиков с собственными усилителями низкой частоты. Сигналы для них формирует специальный звуковой процессор со встроенным декодером Dolby Atmos. при этом динамики размещены на фронтальной панели саунд- бара под специально рассчитанными углами, обеспечивающими не только прямое прохождение звукового сигнала к зрителю, но и отражение части звуковых волн от пола и потолка помещения. В результате в комнате поддерживается сложное звуковое поле, образованное взаимодействием звуковых волн от независимых излучателей саундбара. после проведения калибровки помещения с помощью специального измерительного микрофона саундбар получает математети- ческую модель распространения звука в помещении и, меняя амплитуду, фазу и время задержки сигнала на каждый излучатель, может формировать звуковое поле, полностью соответствующее звуковой атмосфре на «передающей стороне».

Что касается воспроизведения трехмерного звука для VR-систем на приемной стороне, то и здесь благодаря развитию цифровых технологий произошла технологическая революция. Если еще недавно для этого требовались излучателями, имитирующими различные направления прихода звуковой волны, то сегодня появилась возможность создания звуковых bD-образов при помощи обычных стереонаушников. Но это возможно только при использовании специальных звуковых процессоров, воссоздающих объемное звуковое поле с учетом датчиков положения зрителя в пространстве.

Подобное решение, например, было реализовано в 2016 году компанией Google в технологии Omnitone для создания трехмерных аудиосцен в составе панорамных фильмов и видеоигр для VR-гарнитур с передачей 3D-звука через Интернет. При этом даже при использовании ординарных стереонаушников зрителю обеспечивалось полноценное звуковое позиционирование в виртуальном пространстве, синхронное с изменением видеосцены.

Принцип работы технологии Google Omnitone получения эффекта 3D-звука в обычных стерео наушниках

Подобное же техническое решение для технологии Dolby Atmos разрабатывается компанией Dolby Labs при участии VR-сервиса Jaunt. И похоже его появления ждать осталась совсем недолго.

 

 

Источник