Владимир Свириденко: «Мы предлагаем заменить человека интеллектуальным кодеком»
В связи с вступлением в действие «закона Яровой», по оценкам Российского союза промышленников и предпринимателей, совокупный объем хранимого операторами связи и интернет-проектами трафика в этом году может достигнуть нескольких десятков эксабайт. У игроков рынка возникли проблемы с выбором оборудования, способного записать такой объем информации. Для снижения затрат на хранение записей телефонных разговоров российская компания Spirit DSP предложила алгоритм, сжимающий объем данных. Мы попросили технического директора Spirit DSP Владимира Свириденко объяснить принцип действия технологии.
Наша технология сочетает в себе два подхода к сжатию данных. Первый – выделение ценной информации на основе исключения «информационного» шума, то есть неинформации для пользователя, из исходного мультимедийного потока, причем критерии ценности задает лицо, принимающее решение, для которого в первую очередь эти данные и предназначены. Второй – традиционное сжатие данных с потерями или без потерь. Последнее использует известные стандартные речевые, аудио-, видеокодеки наряду с кодеками для сжатия символьной и графической информации.
Если в мультимедийном потоке нет ценной по заданным критериям информации, то есть эти данные можно рассматривать как «информационный» мусор, то их вы вправе полностью браковать как не несущие информации. При этом неважно, какой у них исходный информационный объем, то есть коэффициент сжатия, представляющий отношение объема данных в байтах на входе системы сжатия к объему данных в байтах на ее выходе, равен бесконечности.
Если же хоть один кадр в мультимедийном потоке или фрагмент речи интересен, то он и представляет собой ценность и именно его надо хранить или передавать, а часто при этом целесообразно хранить его в компактной форме. Например, в формате JPEG c учетом требований к качеству воспроизведения изображения при необходимости этого кадра. Коэффициент сжатия исходных мультимедийных данных зависит от объема ценной информации в этих данных и степени избыточности в отобранной информации.
Таким образом, технология позволяет существенно экономить ресурсы по хранению и передаче данных, снизить требования к инфраструктуре СХД, ЦОД и системам передачи данных, но также повысить эффективность анализа и оперативность принятия решений.
Компактный характер хранения ключевой информации определяет при ее воспроизведении и последующем анализе специфику разуплотнения, декодирования и синхронизация подпотоков видео, речи и аудио.
Можно рассмотреть реальный пример из практики видеонаблюдения при охране объекта: на мониторе постоянно отображается почти статическая картинка, то есть одна и та же сцена, если не считать мелких несущественных изменений вроде колебания веток и листьев деревьев, пролета птиц, пробежки мелких животных, которая занимает значительный объем, даже если хранить весь видеопоток с камеры в сжатом виде с использованием традиционного видеокодека. Но в нем интерес представляют только те кадры, где в наблюдаемой сцене имеются существенные изменения. К примеру, появление нарушителя, переход его в охраняемую зону. Именно такие кадры являются ценными и их, как правило, выделяют и хранят. Очевидно, что их объем по отношению к объему всего исходного видеопотока весьма мал.
Другой пример: запись сеанса видеоконференции. Если для вас представляет интерес лишь присутствие на сеансе конкретного спикера и запись его изображения и речи в течение, скажем, 5 минут, а не вся запись видеоконференции в течение всего сеанса, длившегося, к примеру, 1 час, то очевидно, что объем хранимой ценной информации будет на порядки меньше, чем полный объем информации с этого сеанса и это практически малозависимо от используемого формата сжатия мультимедийного потока традиционными речевыми и видеокодеками.
Потенциальными потребителями этой технологии могут быть операторы связи, организаторы распространения информации в Интернете, системы хранения данных и центры обработки данных, ситуационные центры, разработчики и поставщики сервисов безопасности, вендоры, специализирующиеся на записи переговоров и ВКС, а также видеонаблюдении, разработчики и поставщики систем резервного копирования, организации, осуществляющие услуги по борьбе с преступностью и терроризмом, и другие.
Практически также, как существующие СХД интегрируются с традиционными системами сжатия мультимедийной информации – никаких особых трудностей здесь нет. Особенностью такого интеллектуального сжатия данных является усложнение кодирования, а точнее выделения из мультимедийного потока ценной по заданным критериям информации, что требует использования когнитивных технологий для сложной обработки исходных данных, включающей распознавание образов и анализ сцен. В частности, на базе компьютерного зрения и методов машинного обучения и нейросетей для обработки видеопотока как наиболее информационно емкой составляющей мультимедийного потока, включая и поиск объекта интереса в нем. Специфика реализации предлагаемого нами выделителя-кодировщика проявляется исключительно в методах обработки исходных данных, которые должны сочетать синтаксические, семантические и прагматические аспекты обработки мультимедийной информации с обработкой на «сигнальных» уровнях, что делает традиционное кодирование, а не в интерфейсе с СХД. Сейчас ценностный отбор информации фактически производит человек, а мы предлагаем заменить человека интеллектуальным кодеком.
Если рассматривать инженерные аспекты отношения к этому пакету законов, то с учетом того, что Spirit – инженерная компания в области информационных технологий, можно сказать, мы предложили в конструктивном плане вернуться к ценностным критериям информации, которые при наличии и выделении адекватных данных позволяют с меньшими ресурсными издержками решить группу задач, быстрее и с меньшими затратами придти к цели или группе целей. При этом сейчас имеется инструментарий для успешной информационной подготовки больших объемов исходных данных с позиций систем принятия решений.
Мы предлагаем операторам связи и другим участникам информационного общества эффективные методы решения задач хранения все возрастающего объема мультимедийных данных, в частности, и для задач выполнения «закона Яровой». Перспективы для нас в этой области связаны с реализацией разработанной концепции интеллектуального сжатия данных с учетом нашего опыта разработки традиционных методов кодирования мультимедийных данных и опыта в развитии и реализации искусственного интеллекта.