Как телевидение осваивает искусственный интеллект
Сегодня достаточно часто для ускорения и снижения стоимости обработки видео используются решения на базе искусственного интеллекта (ИИ) и машинного обучения (МО). В этом материале «Телеспутник» расскажет о недавних проектах, которые дают представление о спектре сегодняшних применений МО и ИИ в телевизионной сфере.
Сначала определимся с терминами. Искусственный интеллект — это программа, использующая некий массив данных для самообучения определенной задаче, а также предсказания или коррекции результатов. Машинное обучение — это ключевой компонент ИИ, заключающийся в способности компьютерной системы постепенно повышать эффективность решения определенной задачи без изменений в ПО, а за счет самостоятельной оценки результатов предыдущих попыток.
Применение ИИ и МО актуальны при работе с большими объемами данных. Более того, для корректной работы им необходим доступ к большому объему данных. Если речь о телевидении, то это может быть, например, архив изображений или записи большого количества видео с приложенными метриками QoS (качества видео). МО и ИИ могут использоваться для идентификации изображений в видео, для формирования речевых и текстовых переводов, создания субтитров, поиска оптимальных шаблонов для обработки контента и выполнения множества других функций. Рассмотрим наиболее известные из недавних проектов, реализованных с помощью ИИ и МО.МОБИЛЬНОЕ ПРИЛОЖЕНИЕ «КТО ЕСТЬ КТО»
Приложение было разработано по заказу Sky News специально для трансляции свадьбы принца Гарри и Меган Маркл. Задача приложения состояла в автоматическом распознавании гостей по мере их появления на торжестве. Одновременно с появлением гостя в приложении появлялась карточка с дополнительной информацией об этом человеке. Распознавание гостей должно было выполняться в реальном времен, вне зависимости от ракурса, в котором они попадали в объектив погодных условий и помех в виде толпы, шляп или зонтов, которыми могли быть скрыты их лица. Для приложения использовалось решение для распознания образов AWS Rekognition Services.
Напомним, что AWS (Amazon Web Services) — крупнейшее компьютерное облако, имеющее в своем арсенале множество программных надстроек для обработки видео. AWS Rekognition Services — инструмент с широким спектром применения, но для корректной работы его надо предварительно настроить для решения конкретной задачи. Например, для выявления заданных событий во время спортивных соревнований или регистрации противоправных действий в общественном месте.
В случае королевской свадьбы систему предстояло научить идентификации фигур и лиц гостей, ожидаемых на венчании. Для ее настройки было смоделировано тренировочное свадебное торжество, со всеми помехами съемки, которых можно было ожидать на реальном мероприятии. Системе предъявлялось множество фотографий в разных ракурсах и условиях, что позволило натренировать на узнавание лиц. В конце тренировки ей требовалось уже несколько секунд, чтобы распознать новое лицо. И затем систему «познакомили» с ожидаемыми гостями. Во время реального венчания приложение действительно сумело узнать тех приглашенных, которые были ей предъявлены во время тренировки. Но на всякий случай разработчики оставили полутораминутный зазор между живой съемкой и выдачей видео в сеть, чтобы редакторы Sky News успели при необходимости отредактировать результаты работы искусственного интеллекта.
Распознавание образов, наверное, самый ожидаемый вариант использования возможностей ИИ применительно к видео, но это далеко не единственное направление.КАСТОМИЗАЦИЯ НАВИГАЦИИ ПО КАТАЛОГУ
По оценкам Netflix, при выборе фильма для просмотра подписчики сервиса более всего ориентируются на скриншоты (Thumbnails) иллюстрирующие содержание фильма. Креативный директор Netflix Ник Нельсон (Nick Nelson) считает, что в 82% случаев выбор видео для просмотра определяется именно скриншотами.
Ознакомившись с этими выводами, компания Accedo совместно с AWS и Британской телевизионной корпорацией ITV запустила A/B-тест для определения, какие именно изображения побуждают подписчиков к покупке просмотра. По мнению старшего вице президента Accedo по продуктам Фредерика Андерсена (Frederik Andersen), пользователи выбирают фильм, руководствуясь эмоциями при просмотре скриншотов. По данным компании, на оценку одного скриншота в среднем тратится лишь 1,8 секунды, но разнообразие предложений таково, что некоторые просто бросают попытки что-то выбрать. Было решено взять этот процесс под контроль.
Используя ресурсы ИИ, можно подобрать набор скриншотов с оптимальной конверсией, то есть более всего побуждающий купить просмотр. В результате теста были выявлены некоторые общие закономерности. Оказалось, что более всего пользователи реагируют на изображения одного героя, лицо которого ярко выражает эмоцию, резонирующую с названием фильма. Особенно в этом плане привлекают физиономии злодеев. В то же время скриншоты с большими группами героев обычно вызывают меньший интерес.
Кроме того, средства ИИ позволили сформировать разные подборки для разных сегментов пользователей, выделенных по социальным или территориальным признакам. Абоненты могли думать, что листают один и тот же каталог, но на самом деле иллюстрации в нем были по-разному адаптированы для каждой группы. Пока был проведен только четырехмесячный тест решения на базе iTV, а на регулярной основе оно не используется.
ДОСТАВКА КОНТЕНТА
Компания SDVI, занимающаяся формированием цепочек доставки медиа, использовала ИИ и МО для оптимизации оценки контента на предмет его соответствия разноречивым требованиям разных регионов. Такая задача стоит перед крупными клиентами компании, такими как Discovery, которым необходимо проводить локализацию своего контента для разных регионов нашей планеты. По словам руководителя отдела продуктов Discovery Саймона Элдриджа (Simon Eldridge), раньше редактирование часового шоу под региональные требования занимало у редакторов телекомпании около 2 часов, а теперь 10 минут. Он уточняет, что редактирование по-прежнему выполняется вручную, но ИИ выделяет фрагменты, подлежащие коррекции.
Платформа SDVI сформирована на базе инструментов от AWS и Google Cloud Platform, выполняющих распознавание объектов, транскрибацию аудио и фильтрацию взрослого контента. В результате их работы формируются подробные, синхронизированные с видеорядом метаданные, позволяющие выявить сюжеты, включающие насилие, курение или наготу. Как отмечает Саймон Элдридж, инструменты крупных открытых облаков часто оказываются уже обученными выполнять требуемые задачи. Так, Google Cloud Platform постоянно отрабатывает распознавание объектов на видео хостинге YouTube.
Сейчас весь контент Discovery пропускается через инструменты распознавания объектов, транскрибации и автоматической оценки качества видео. Это позволило исключить задержки с формированием локализованных версий, которые раньше регулярно тормозили производственные процессы компании.ИНДИВИДУАЛЬНАЯ ОПТИМИЗАЦИЯ ПРОФИЛЕЙ КОМПРЕССИИ ДЛЯ РАЗНЫХ ВИДЕО
Компанией Netflix также была введена практика индивидуального подбора скоростных профилей компрессии для разных наименований видео с учетом их особенностей. Однако без использования инструментов машинного обучения эта работа выливается в сотни тестов с тупым перебором вариантов. Это приемлемо для Netflix, так как кинотеатр имеет значительные компьютерные мощности и относительно небольшой каталог, но для большинства проектов такой вариант нереализуем.
В связи с этим компания Mux нашла стороннюю разработку, позволяющую обучать компьютер оптимизации подбора профилей с учетом предыдущего опыта, полученного при работе с аналогичными типами видео. В основе решения лежит нейроноподобная система. Она оценивает низкоуровневые атрибуты видео, определяя его класс, и затем находит оптимальные параметры для этого класса видео, которые были определены в процессе обучения. Оценке подлежит динамика картинки, степень четкости и общая сложность сюжета По словам основателя Mux Джона Дал (Jon Dahl), процесс подбора, который раньше занимал сотни часов, теперь требует нескольких секунд компьютерной обработки. За это время система оценивает динамику сюжета, степень четкости и общую сложность картинки. При этом, уточняет Джон Мал, нейронная сеть совершенно не обязательно понимает смысл своих решений. То есть при принятии решений исходит не из общих закономерностей, который она может не знать, а просто путем множества итераций обучается получать оптимальные по заданным параметрам результаты.КАЧЕСТВО ВИДЕО
Компания Ssimwave предложила решение для дистрибьюторов пакетов телеканалов, позволяющее автоматически определять оптимальный источник видео для доставки в определенной среде. Как отмечает исполнительный директор Ssimwave Абдул Рейман (Abdul Rehman), контент часто можно получить с разными параметрами. Например, канал CNN в одном источнике доступен с параметрами 1080@29,97i, MPEG-2, 40 Мбит/сек, а в другом — с параметрами 720p60, H264, 22 Мбит/сек. При этом совершенно не очевидно, что вариант с большим разрешением обеспечит более высокое качество видео у абонента. На конечный результат оказывают влияние форматы компрессии и передачи цвета, динамический диапазон, процедуры транскодирования, технологии доставки и версии абонентских плееров.
Выбрать оптимальные варианты для каждого из каналов и каждой из цепочек доставки вручную практически нереально, а система на базе машинного обучения делает эту задачу вполне решаемой.ИНДЕКСАТОР ВИДЕО ОТ MICROSOFT
Уже появился и облачный конструктор, использующий МО и ИИ, — индексатор видео от Microsoft, ориентированный на пользователей, не имеющих навыков разработки. Он включает 25 инструментов, умеющих искать и распознавать контент в больших видео- и аудиоархивах. Индексация архива позволяет его обладателям собрать и структурировать информацию о его содержимом. В Microsoft видят возможности применения этих инструментов, например для упрощения создания трейлеров для новых фильмов или облегчения поиска ретроспективного контента, необходимого новостного сюжета. Помимо индексации, предлагаемый набор инструментов позволяет генерировать субтитры и переводить аудио на 54 языка в масштабе времени, близком к реальному.IBM WATSON
IBM Watson — это суперкомпьютер IBM со встроенной системой искусственного интеллекта. Для него выпущен ряд программных продуктов, предназначенных для решения самого широкого круга задач. В сфере обработки видео IBM Watson умеет формировать и структурировать богатые мультимедийные метаданные, появляющиеся во время обработки контента, — визуальные описания, транскрибация аудио, эмоциональные редакторские заметки и прочее.
Чаще всего это решение используется компанией для работы со спортивными событиями, такими как чемпионат мира по футболу, Открытое первенство США по теннису (US Open), проекты американской спортивной телесети Fox Sports и соревнования Международной ассоциации ветеранов спортивного движения Masters.
Программа IBM Watson получает вещаемый поток и отмечает в нем ключевые моменты, формируя вокруг них мультимедийные метаданные. После этого поток возвращается редакторам видео или же доставляется непосредственно телезрителям, как это было с матчами чемпионата мира по футболу. Правда, чтобы научить суперкомпьютер размечать матчи, его предварительно тренировали на распознавание подач, голов, нарушения правил и получение красных карточек.
Сформированные метаданные к тому же хорошо структурируются, и это впоследствии позволяет редакторам, не роясь в видеозаписях, находить нужные фрагменты, связанные с определенным игроком или определенным типом события во время матча.КАЧЕСТВЕННЫЕ МЕТАДАННЫЕ УВЕЛИЧИВАЮТ ТЕЛЕПРОСМОТРЫ
Канадский вещатель Rogers Communications’ Sportsnet расширил свою аудиторию и увеличил количество просмотров, внедрив систему рекомендаций, реализованную на платформе Iris.tv.
Эта платформа, работающая на базе искусственного интеллекта, позволяет подбирать для телезрителя видео, рекомендуемое к просмотру, после того как он закончит смотреть текущую программу. Помимо роста просмотров, это повысило эффективность рекламы, показываемую между просматриваемой и рекомендованной программой.
Платформа Iris.tv интегрирована c программой IBM Watson, что позволяет собирать более глубокие метаданные. В таком тандеме платформа работает еще более эффективно. Сначала видеосюжеты пропускаются через IBM Watson, а затем Iris.tv анализирует сформированные ключевые слова для создания новых категорий и наименований фильмотеки. Помимо введения новых категорий, IBM Watson также позволяет добавить видео- и аудиометаданные, имеющие ценность сами по себе, а также позволяют платформе Iris.tv точнее структурировать собственную систему метаданных. Это пример удачной командной работы двух искусственных интеллектов.
По словам генерального директора Iris.tv Филда Гартвейда (Field Garthwaite), этим интегрированным решением уже пользуется ряд крупных клиентов. У одного из них внедрение системы на 125% увеличило объемы просмотров и на 87% повысило доходы.
ВЫВОДЫ
Рабочие решения на базе ИИ и МО для видеоиндустрии существуют уже несколько лет, но сейчас наблюдается переход от применения отдельных продуктов к их интеграции и адаптации под конкретные задачи. Директор по технологиям RealEyes Media Джун Хейдер (Jun Heider) отмечает, что разработчики систем на базе ИИ все чаще предлагают решения, кастомизированные под задачи определенного клиента, или же такие, которые клиент может кастомизировать самостоятельно.
Искусственный интеллект и машинное обучение — крайне полезные инструменты для решения задач с большим количеством переменных, которых в видео- и телеиндустрии достаточно много. Поэтому направления интеллектуальной обработки видео неизбежно будут развиваться.