Платформы коротких видео, такие как Douyin, TikTok, YouTube и другие, сталкиваются с проблемой огромного количества пользовательского контента, где обнаружение повторяющихся видео и контента, загруженного из других источников, стало ключевой технологической задачей управления контентом. В этом отчете будет проведен углубленный анализ того, как эти видеоплатформы определяют повторяемость видео и загрузку из других источников, рассмотрены используемые алгоритмы и технологии, а также подробно объяснены принципы их работы на конкретных примерах.

Основные методы обнаружения повторений на видеоплатформах
Технология хеширования сравнения
Видеоплатформы в первую очередь используют технологию хеширования сравнения — это самый базовый, но и самый быстрый метод обнаружения. Платформа генерирует для каждого загруженного видео несколько типов хэш-значений:
MD5-хеш — самый простой метод, он распознает полностью идентичные файлы, вычисляя MD5-значение видеофайла. Когда пользователь загружает видео без изменений, система может за миллисекунды обнаружить повторяющийся контент с помощью сопоставления MD5-значений. Однако этот метод не может обнаружить видео, подвергшиеся любой обработке: даже простое изменение формата или сжатие приводит к совершенно разным MD5-значениям.
Перцептивное хеширование — более продвинутая технология, способная обнаруживать видео, визуально похожие, но технически разные. Система извлекает ключевые кадры видео и с помощью DCT (дискретного косинусного преобразования) или других алгоритмов генерирует хэш-коды фиксированной длины. Сходство между двумя видео вычисляется по расстоянию Хэмминга между их перцептивными хэшами. Если расстояние Хэмминга меньше заданного порога, контент считается повторяющимся.
Технология аудиоотпечатков
Технология аудиоотпечатков — важное средство для видеоплатформ по обнаружению контента, загруженного из других источников. Наиболее известной является технология распознавания аудио на основе алгоритма Shazam. Эта технология анализирует спектральные характеристики аудиосигнала и генерирует уникальный «аудиоотпечаток» для распознавания одинакового или похожего аудиоконтента.
Процесс генерации аудиоотпечатка включает: сначала аудио дискретизируется с частотой 44.1 кГц, затем с помощью **кратковременного преобразования Фурье (STFT)** создается спектрограмма. Система извлекает из спектрограммы пиковые точки, которые представляют наиболее значимые частотные компоненты аудиосигнала. Затем алгоритм объединяет эти пиковые точки в пары, образуя «созвездие», где каждая пара содержит два значения частоты и временной интервал между ними: Constellation(P1,P2,Δt)=(f1,f2,Δt)Constellation(P1,P2,Δt)=(f1,f2,Δt).
Анализ визуальных признаков
Современные видеоплатформы широко используют технологию извлечения визуальных признаков на основе глубокого обучения. С помощью моделей глубокого обучения, таких как сверточные нейронные сети (CNN), система может извлекать семантические признаки высокого уровня из видеокадров. Эти признаки способны улавливать суть контента, а не поверхностную пиксельную информацию.
Преимущество этого метода в том, что он может обнаруживать видео, прошедшие сложную обработку: изменение цвета, обрезку, добавление водяных знаков, ускорение/замедление воспроизведения и т.д. Даже если видео претерпело значительные изменения на уровне пикселей, его глубинные семантические признаки часто остаются относительно стабильными.

Обнаружение временной согласованности
Анализ временной согласованности — еще одно важное измерение для обнаружения загруженного контента. Эта технология анализирует временные отношения между кадрами видео и непрерывность движения для распознавания повторяющегося контента. Двухуровневый метод обнаружения (Dual-level Detection) является важным прорывом в этой области, он включает два уровня: обнаружение редактирования видео (VED) и обнаружение сцен кадров (FSD).
Модуль обнаружения редактирования видео сначала определяет, прошло ли видео обработку. Для неотредактированных видео система использует случайные векторы в качестве дескрипторов для экономии вычислительных ресурсов. Для отредактированных видео система проводит более глубокий покадровый анализ, включая обнаружение монтажа нескольких сцен в видео.
Подробное описание основных алгоритмов
Семейство алгоритмов перцептивного хеширования
Алгоритм pHash (перцептивное хеширование) — широко используемая технология для обнаружения повторений видео. Этот алгоритм генерирует хэш-значение следующим образом: сначала изображение масштабируется до стандартного размера 32×32 пикселя, затем применяется дискретное косинусное преобразование (DCT) для извлечения частотных признаков. Далее алгоритм сохраняет область 8×8 в верхнем левом углу коэффициентов DCT (низкие частоты), вычисляет среднее значение этих коэффициентов и, наконец, сравнивая каждый коэффициент со средним значением, генерирует 64-битный двоичный хэш-код.
Алгоритм dHash (дифференциальное хеширование) использует другую стратегию: он масштабирует изображение до размера 9×8 пикселей, а затем вычисляет разницу между соседними пикселями. Если пиксель ярче своего правого соседа, в хэш-коде записывается 1, иначе 0. Этот метод более чувствителен к горизонтальным изменениям изображения и лучше улавливает структурные признаки изображения.
Углубленный анализ алгоритма аудиоотпечатков

Ядром алгоритма Shazam является техника сопоставления созвездий. Алгоритм сначала преобразует временной аудиосигнал в частотное представление с помощью быстрого преобразования Фурье (FFT):
STFT(t,f)=∑n=0N−1x(t+n)⋅e−j2πfnSTFT(t,f)=∑n=0N−1x(t+n)⋅e−j2πfn
где x(t+n)x(t+n) обозначает точки дискретизации аудио во временном окне, а e−j2πfne−j2πfn — комплексная экспоненциальная функция.
Процесс извлечения пиков включает установку порога для выявления значимых характерных точек на спектрограмме:
STFT(t,f) & \text{Если} STFT(t,f) > threshold \\ 0 & \text{Иначе} \end{cases}$$ Построение созвездия — ключевой шаг алгоритма. Система объединяет извлеченные пиковые точки в пары, каждая пара содержит два значения частоты и временной интервал между ними. Такой способ формирования пар делает алгоритм устойчивым к шуму и легким искажениям аудио.[4] Процесс генерации хэша преобразует информацию созвездия в компактный цифровой отпечаток: $$Hash(P1, P2, \Delta t) = Hash(f1, f2, \Delta t)$$ Это хэш-значение сохраняется в базе данных как уникальный идентификатор аудиофрагмента для последующего быстрого сопоставления.[4] ### Извлечение признаков с помощью глубокого обученияТехнология самообучающегося видеохеширования (SSVH) представляет последнее применение глубокого обучения в обнаружении повторений видео. Эта технология использует иерархическую архитектуру бинарного автоэнкодера, включающую кодер и три декодера: прямой иерархический бинарный декодер, обратный иерархический бинарный декодер и глобальный иерархический бинарный декодер.
Кодер использует бинарную структуру LSTM (BLSTM), которая может напрямую генерировать бинарные хэш-коды без этапа постобработки. Поток данных BLSTM следует стандартной модели LSTM, но в конце добавляется функция знака bt=sgn(ht)bt=sgn(ht) для получения бинарного вывода.
Для решения NP-трудной задачи бинарной оптимизации алгоритм использует аппроксимацию функции знака:
-1 & \text{Когда} h < -1 \\ h & \text{Когда} -1 \leq h \leq 1 \\ 1 & \text{Когда} h > 1 \end{cases}$$ Этот аппроксимирующий метод позволяет градиенту проходить через функцию знака во время обратного распространения, что делает возможным сквозное обучение всей сети.[9] ### Алгоритм анализа временной согласованностиАлгоритм переупорядочивания по временной согласованности — ключевая технология для локализации видеосегментов. Сначала алгоритм извлекает признаки на уровне изображений с помощью агрегации ключевых точек и глубокого обучения, затем использует структуру множественных k-d деревьев для эффективного поиска KNN, получая набор кандидатных видеосегментов.
Новизна алгоритма заключается в этапе отсева по временной согласованности: анализируя временные метки и идентификаторы последовательностей кандидатных сегментов, он точно определяет совпадающие сегменты и их временное положение в последовательности. Этот метод позволяет выполнять запрос одного кадра в базе данных из 1 миллиона кадров за 83,96 мс, а в базе из 4,5 миллионов кадров — за 462,59 мс.
Анализ конкретных примеров реализации
Система Content ID от YouTube
Система Content ID от YouTube — одна из самых зрелых технологий обнаружения авторских прав в индустрии. Эта система использует многоуровневую стратегию обнаружения:
Первый уровень — сопоставление аудиоотпечатков. Система генерирует аудиоотпечатки для каждого загруженного видео и сравнивает их с огромной эталонной базой данных. Даже если аудио подверглось изменению тона, скорости или добавлению фонового шума, система все равно может обнаружить совпадение с помощью спектрального анализа.
Второй уровень — анализ визуального контента. Система использует модели глубокого обучения для анализа визуальных признаков видео, включая распределение цвета, текстурные узоры, распознавание объектов и т.д. Эти признаки кодируются в многомерные векторы, и сходство видео вычисляется через косинусное расстояние.
Третий уровень — сравнение метаданных. Система сравнивает заголовки, описания, теги и другие метаданные видео, комбинируя результаты вышеуказанных технологий для вынесения окончательного решения.
Двойной механизм обнаружения TikTok/Douyin
Douyin и TikTok используют двойной механизм обнаружения для обработки специфики коротких видео:
Обнаружение в реальном времени: в процессе загрузки видео пользователем система в реальном времени вычисляет перцептивный хэш и аудиоотпечаток видео. Благодаря быстрому сравнению с существующей базой данных система способна за несколько секунд выявить явно повторяющийся контент.
Офлайн-глубокий анализ: для видео, прошедших обнаружение в реальном времени, система проводит более глубокий анализ в фоновом режиме. Используя модель CNN для извлечения семантических признаков, анализируется творческая оригинальность контента. Для видео, в которых обнаружены незначительные изменения, система вычисляет оценку сходства, и контент, превышающий порог, помечается как подозрительный на загрузку из других источников.
Фактические данные об эффективности обнаружения
Согласно исследовательским данным, современные технологии аудиоотпечатков в идеальных условиях достигают 100% точности распознавания:
-
1-секундный аудиофрагмент: точность распознавания 60%
-
2-секундный аудиофрагмент: точность распознавания 95,6%
-
5 секунд и более: точность распознавания 100%
Для обнаружения видео двухуровневый метод достигает полноты 98,8% на наборе данных FIVR-200K и 94,1% на наборе данных VCSL.
Производительность перцептивного хеширования:
-
Скорость обработки: время обработки одного кадра менее 1 миллисекунды
-
Эффективность хранения: для каждого видеокадра требуется только 8 байт хэша
-
Точность обнаружения: для незначительно измененных видео точность обнаружения достигает 85-90%
Проблемы и тенденции развития технологий
Противодействие атакам
С глобальной популярностью коротких видео контентные републикаторы постоянно совершенствуют методы обхода обнаружения. Атаки являются одной из основных текущих проблем. Злоумышленники добавляют в видео малые возмущения или используют специальные приемы редактирования, пытаясь обмануть системы обнаружения.
Для противодействия этим вызовам платформы разрабатывают более надежные алгоритмы обнаружения. Например, использование топологических отпечатков на основе теории персистентной гомологии для анализа топологической структуры аудиосигнала — этот метод обладает большей устойчивостью к временным растяжениям и изменениям тона.
Мультимодальное объединенное обнаружение
Современные системы обнаружения видео все чаще применяют стратегию мультимодальной интеграции. Одновременно анализируя визуальный контент, аудиохарактеристики, текстовую информацию (субтитры, заголовки) и паттерны распространения в социальных сетях, система может построить более полный цифровой отпечаток контента.
Преимущество этого метода: даже если один из модальностей целенаправленно изменен, признаки других модальностей все равно могут обеспечить эффективные сигналы для обнаружения. Например, даже если видеоизображение сильно изменено, его аудиохарактеристики и паттерны распространения могут по-прежнему раскрывать его вторичное происхождение.
Оптимизация периферийных вычислений
В будущем обнаружение видео развивается в направлении работы в реальном времени и облегченности. Новые алгоритмы ориентированы на:
Вычислительная эффективность: разработка легковесных алгоритмов обнаружения, способных работать на мобильных устройствах, снижая зависимость от облачных сервисов.
Работа в реальном времени: обеспечение обнаружения в процессе загрузки видео, а не в традиционном режиме постобработки.
Защита конфиденциальности: проведение обнаружения контента с сохранением конфиденциальности пользователей, избегая утечки исходного видеоконтента.
Сравнение производительности алгоритмов
Различные алгоритмы обнаружения имеют свои преимущества и области применения:
MD5-хеш подходит для обнаружения полностью идентичных файлов, обладает высокой скоростью и точностью, но не может обрабатывать любые виды модификаций.
Перцептивное хеширование обеспечивает хороший баланс между скоростью и устойчивостью, подходит для обнаружения незначительно измененного контента и является предпочтительной технологией для большинства платформ.
Аудиоотпечатки обладают чрезвычайно высокой точностью обнаружения аудиоконтента, сохраняя хорошую производительность даже при наличии фонового шума, но имеют относительно высокую вычислительную сложность.
Методы глубокого обучения способны понимать семантику видео, обладают мощной способностью обнаруживать сложные редактирования, но требуют больших вычислительных ресурсов и обучающих данных.
Временной анализ отлично подходит для обнаружения монтажа и рекомбинации видеосегментов, но скорость обработки относительно низкая, поэтому обычно используется как вторичный метод верификации.
На практике видеоплатформы обычно используют стратегию объединения нескольких алгоритмов, динамически выбирая наиболее подходящую комбинацию в зависимости от характеристик видео и требований к обнаружению. Такая многоуровневая архитектура обнаружения обеспечивает как полноту обнаружения, так и эффективность вычислений и контроль затрат.
Заключение
Основные текущие технологические направления включают перцептивное хеширование, аудиоотпечатки, извлечение признаков с помощью глубокого обучения и анализ временной согласованности. Каждая технология имеет свои уникальные преимущества и области применения. С развитием искусственного интеллекта будущие системы обнаружения станут более интеллектуальными, работающими в реальном времени и точными, одновременно находя лучший баланс между технологическим прогрессом и пользовательским опытом.