一可软件 一可软件 Batch-Tools
Deutsch
Artikel

Technische Analyse zur Erkennung von doppelten Inhalten und Reposts auf Videoplattformen

Tiefgehende Analyse, wie diese Videoplattformen die Duplizität und das Upladen von Videos erkennen, Untersuchung der verwendeten Algorithmen und detaillierte Erklärung der Funktionsweise anhand konkreter Beispiele.

Kurzvideo-Plattformen wie TikTok, YouTube und Co. stehen vor der Herausforderung, eine enorm große Menge an nutzergenerierten Inhalten zu verwalten. Die Erkennung von doppelten und kopierten Videos ist zu einem zentralen technischen Problem des Content-Managements auf den Plattformen geworden. Dieser Bericht analysiert eingehend, wie diese Videoplattformen die Duplizität und das Kopieren von Videos erkennen, untersucht die verwendeten Algorithmen und erläutert anhand konkreter Beispiele deren Funktionsweise.

Flussdiagramm der Duplikaterkennungstechnologie auf Videoplattformen

Grundlegende Methoden der Duplikaterkennung auf Videoplattformen

Hash-Vergleichstechnologie

Die Videoplattformen setzen zunächst auf die Hash-Vergleichstechnologie, die grundlegendste und schnellste Erkennungsmethode. Die Plattform generiert für jedes hochgeladene Video mehrere Arten von Hashwerten:

MD5-Hashing ist die einfachste Methode. Sie identifiziert identische Dateien durch Berechnung des MD5-Werts der Videodatei. Wenn Benutzer unveränderte Videos direkt hochladen, kann das System innerhalb von Millisekunden durch MD5-Abgleich doppelte Inhalte erkennen. Diese Methode kann jedoch keine bearbeiteten Videos erkennen, selbst eine einfache Formatkonvertierung oder Komprimierung führt zu völlig anderen MD5-Werten.

Die Perceptual-Hashing-Technologie ist fortschrittlicher und kann visuell ähnliche, aber technisch unterschiedliche Videos erkennen. Das System extrahiert Schlüsselbilder des Videos und generiert durch DCT (Diskrete Kosinustransformation) oder andere Algorithmen Hashcodes fester Länge. Die Ähnlichkeit der Perceptual-Hashwerte zweier Videos wird über die Hamming-Distanz berechnet. Liegt die Hamming-Distanz unter einem festgelegten Schwellenwert, wird der Inhalt als Duplikat eingestuft.

Audio-Fingerprint-Technologie

Die Audio-Fingerprint-Technologie ist ein wichtiges Mittel zur Erkennung von kopierten Inhalten auf Videoplattformen, am bekanntesten ist die auf dem Shazam-Algorithmus basierende Audio-Identifikationstechnologie. Diese Technologie analysiert die Spektraleigenschaften des Audiosignals und erzeugt einen einzigartigen "Audio-Fingerprint", um identische oder ähnliche Audioinhalte zu identifizieren.

Der Generierungsprozess des Audio-Fingerprints umfasst: Zunächst wird das Audio mit 44,1 kHz abgetastet, dann wird ein Spektrogramm mittels **Kurzzeit-Fourier-Transformation (STFT)** erzeugt. Das System extrahiert Peak-Punkte aus dem Spektrogramm, welche die signifikantesten Frequenzkomponenten des Audiosignals darstellen. Anschließend kombiniert der Algorithmus diese Peak-Punkte zu einem "Sternbild" (Constellation), wobei jedes Paar zwei Frequenzwerte und deren Zeitdifferenz enthält: Constellation(P1,P2,Δt)=(f1,f2,Δt)Constellation(P1,P2,Δt)=(f1,f2,Δt).

Visuelle Merkmalsanalyse

Moderne Videoplattformen verwenden weitgehend auf Deep Learning basierende Verfahren zur Extraktion visueller Merkmale. Durch Deep-Learning-Modelle wie Convolutional Neural Networks (CNNs) kann das System hochrangige semantische Merkmale von Videobildern extrahieren, die das inhaltliche Wesen des Videos erfassen, nicht nur oberflächliche Pixelinformationen.

Der Vorteil dieser Methode liegt darin, dass sie Videos erkennen kann, die komplexen Bearbeitungen unterzogen wurden, wie Farbkorrekturen, Zuschneiden, Hinzufügen von Wasserzeichen, Geschwindigkeitsänderungen usw. Auch wenn das Video auf Pixelebene erheblich verändert wurde, bleiben die tiefen semantischen Merkmale oft relativ stabil.

Vergleich der Algorithmen zur Videoduplikaterkennung

Zeitliche Konsistenzprüfung

Die Analyse der zeitlichen Konsistenz ist eine weitere wichtige Dimension zur Erkennung von kopierten Videos. Diese Technologie analysiert die zeitlichen Beziehungen zwischen Videobildern und die Bewegungskontinuität, um doppelte Inhalte zu identifizieren. Die Dual-level Detection ist ein wichtiger Durchbruch in diesem Bereich, der die beiden Ebenen der Video-Edit-Erkennung (VED) und der Frame-Szene-Erkennung (FSD) umfasst.

Das Modul zur Video-Edit-Erkennung prüft zunächst, ob das Video bearbeitet wurde. Für unbearbeitete Videos werden zufällige Vektoren als Deskriptoren verwendet, um Rechenressourcen zu sparen. Für bearbeitete Videos wird eine tiefergehende Frame-Analyse durchgeführt, einschließlich der Erkennung, ob das Video aus mehreren Szenen zusammengesetzt wurde.

Detaillierte Erklärung der Kernalgorithmen

Familie der Perceptual-Hashing-Algorithmen

Der pHash (Perceptual Hash)-Algorithmus ist eine weit verbreitete Technik zur Videoduplikaterkennung. Der Algorithmus generiert Hashwerte durch folgende Schritte: Zuerst wird das Bild auf eine Standardgröße von 32×32 Pixeln skaliert, dann wird die Diskrete Kosinustransformation (DCT) angewendet, um die Frequenzmerkmale des Bildes zu extrahieren. Anschließend behält der Algorithmus den 8×8-Block oben links der DCT-Koeffizienten (Niederfrequenzanteile), berechnet den Mittelwert dieser Koeffizienten und vergleicht schließlich jeden Koeffizienten mit dem Mittelwert, um einen 64-Bit-Binär-Hashcode zu erzeugen.

Der dHash (Differenz-Hash)-Algorithmus verwendet eine andere Strategie: Er skaliert das Bild auf 9×8 Pixel und berechnet dann die Unterschiede zwischen benachbarten Pixeln. Wenn ein Pixel heller ist als sein rechter Nachbar, wird im Hashcode eine 1 notiert, andernfalls eine 0. Diese Methode ist empfindlicher gegenüber horizontalen Änderungen im Bild und kann die strukturellen Merkmale des Bildes besser erfassen.

Tiefgehende Analyse des Audio-Fingerprint-Algorithmus

Detaillierter Arbeitsablauf des Shazam-Audio-Fingerprint-Algorithmus

Der Kern des Shazam-Algorithmus ist die Sternbild-Matching-Technik. Der Algorithmus wandelt zunächst das Audio-Zeitbereichssignal durch die Schnelle Fourier-Transformation (FFT) in eine Frequenzbereichsdarstellung um:

STFT(t,f)=∑n=0N−1x(t+n)⋅e−j2πfnSTFT(t,f)=∑n=0N−1x(t+n)⋅e−j2πfn

wobei x(t+n)x(t+n) die Audio-Abtastpunkte im Zeitfenster darstellt und e−j2πfne−j2πfn die komplexe Exponentialfunktion ist.

Beim Peak-Extraktionsprozess werden durch Setzen eines Schwellenwerts signifikante Merkmalspunkte im Spektrogramm identifiziert:

STFT(t,f) & \text{ falls } STFT(t,f) > \text{Schwellenwert} \\ 0 & \text{sonst} \end{cases}$$ Der Aufbau des Sternbilds ist ein entscheidender Schritt des Algorithmus. Das System paart die extrahierten Peak-Punkte, jedes Paar enthält zwei Frequenzwerte und deren Zeitdifferenz. Diese Paarbildungsmethode macht den Algorithmus robust gegenüber Rauschen und leichten Audioverzerrungen. [4] Der Hash-Generierungsprozess wandelt die Sternbildinformationen in einen kompakten digitalen Fingerabdruck um: $$Hash(P1, P2, \Delta t) = Hash(f1, f2, \Delta t)$$ Dieser Hashwert dient als eindeutige Kennung des Audio-Abschnitts und wird in der Datenbank für spätere schnelle Vergleiche gespeichert. [4] ### Deep Learning Merkmalsextraktion

Self-Supervised Video Hashing (SSVH) repräsentiert die neueste Anwendung von Deep Learning in der Videoduplikaterkennung. Diese Technologie verwendet eine hierarchische binäre Autoencoder-Architektur, bestehend aus einem Encoder und drei Decodern: einem vorwärts gerichteten hierarchischen binären Decoder, einem rückwärts gerichteten hierarchischen binären Decoder und einem globalen hierarchischen binären Decoder.

Der Encoder verwendet eine binäre LSTM (BLSTM)-Struktur, die in der Lage ist, direkt binäre Hashcodes ohne nachgelagerte Verarbeitungsschritte zu generieren. Der Datenfluss des BLSTM folgt dem Standard-LSTM-Muster, fügt jedoch am Ende eine Vorzeichenfunktion bt=sgn(ht)bt=sgn(ht) hinzu, um binäre Ausgaben zu erzeugen.

Um das NP-schwere Problem der binären Optimierung zu lösen, verwendet der Algorithmus eine angenäherte Vorzeichenfunktion:

-1 & \text{ wenn } h < -1 \\ h & \text{ wenn } -1 \leq h \leq 1 \\ 1 & \text{ wenn } h > 1 \end{cases}$$ Diese Annäherung ermöglicht es, dass der Gradient während der Rückwärtspropagation durch die Vorzeichenfunktion fließen kann, sodass das gesamte Netzwerk end-to-end trainiert werden kann. [9] ### Algorithmus zur zeitlichen Konsistenzanalyse

Der Algorithmus zur zeitlichen Konsistenzneuanordnung ist die Kerntechnologie zur Lokalisierung von Videoclips. Der Algorithmus extrahiert zunächst Bildmerkmale auf Frame-Ebene mittels Schlüsselpunktaggregation und Deep Learning und führt dann eine effiziente KNN-Suche unter Verwendung einer Multi-k-d-Tree-Struktur durch, um eine Menge von Kandidaten-Videoclips zu erhalten.

Die Innovation des Algorithmus liegt im Schritt des zeitlichen Konsistenz-Trimmens, der durch Analyse der Zeitstempelinformationen und Sequenz-IDs der Kandidaten-Clips die übereinstimmenden Clips und deren zeitliche Position in der Sequenz präzise identifiziert. Diese Methode kann eine Einzelbildabfrage in einer Datenbank mit 1 Million Frames in 83,96 Millisekunden durchführen, die Abfragezeit in einer Datenbank mit 4,5 Millionen Frames beträgt 462,59 Millisekunden.

Konkrete Implementierungsfallanalysen

YouTube Content ID System

Das Content-ID-System von YouTube ist eine der ausgereiftesten Urheberrechtserkennungstechnologien der Branche. Das System verwendet eine mehrstufige Erkennungsstrategie:

Die erste Stufe ist der Audio-Fingerprint-Abgleich. Das System generiert für jedes hochgeladene Video einen Audio-Fingerprint und vergleicht ihn mit einer riesigen Referenzdatenbank. Selbst wenn das Audio durch Tonhöhenänderungen, Geschwindigkeitsanpassungen oder Hinzufügen von Hintergrundgeräuschen verändert wurde, kann das System über die Spektralanalyse übereinstimmende Inhalte erkennen.

Die zweite Stufe ist die visuelle Inhaltsanalyse. Das System verwendet Deep-Learning-Modelle zur Analyse der visuellen Merkmale des Videos, einschließlich Farbverteilung, Texturmuster, Objekterkennung usw. Diese Merkmale werden als hochdimensionale Vektoren codiert und die Videoähnlichkeit wird über die Kosinus-Ähnlichkeit berechnet.

Die dritte Stufe ist der Metadatenabgleich. Das System vergleicht Metadaten wie Titel, Beschreibung, Tags des Videos und trifft basierend auf den obigen Technologieergebnissen eine Gesamtentscheidung.

Doppelerkennungsmechanismus von TikTok/Douyin

Douyin und TikTok verwenden einen doppelten Erkennungsmechanismus, um der Besonderheit von Kurzvideos gerecht zu werden:

Echtzeiterkennung: Während des Hochladens des Videos durch den Benutzer berechnet das System in Echtzeit den Perceptual-Hash-Wert und den Audio-Fingerprint des Videos. Durch schnellen Abgleich mit der vorhandenen Datenbank kann das System innerhalb von Sekunden offensichtliche doppelte Inhalte identifizieren.

Offline-Tiefenanalyse: Für Videos, die die Echtzeiterkennung bestehen, führt das System im Hintergrund eine tiefergehende Analyse durch. Es verwendet CNN-Modelle zur Extraktion semantischer Merkmale und analysiert die Kreativität des Videoinhalts. Für Videos, bei denen leichte Modifikationen erkannt werden, wird ein Ähnlichkeitswert berechnet; Inhalte, die einen Schwellenwert überschreiten, werden als mutmaßlich kopiert markiert.

Daten zur tatsächlichen Erkennungsleistung

Laut Forschungsdaten erreicht die moderne Audio-Fingerprint-Technologie unter idealen Bedingungen eine Erkennungsgenauigkeit von 100%:

  • 1-Sekunden-Audio-Clip: Erkennungsgenauigkeit 60%

  • 2-Sekunden-Audio-Clip: Erkennungsgenauigkeit 95,6%

  • 5 Sekunden und mehr: Erkennungsgenauigkeit 100%

Für die Videoerkennung erreichte die Dual-Level-Detection-Methode auf dem FIVR-200K-Datensatz eine Recall-Rate von 98,8% und auf dem VCSL-Datensatz eine Recall-Rate von 94,1%.

Die Leistung der Perceptual-Hashing-Technologie zeigt:

  • Verarbeitungsgeschwindigkeit: Verarbeitungszeit pro Frame unter 1 Millisekunde

  • Speichereffizienz: Nur 8 Byte Hash-Speicher pro Videobild

  • Erkennungsgenauigkeit: Für leicht modifizierte Videos liegt die Erkennungsgenauigkeit bei 85-90%

Herausforderungen und technologische Entwicklungstrends

Umgang mit adversarischen Angriffen

Mit der weltweiten Popularität von Kurzvideos verbessern auch die Inhaltskopierer ständig ihre Gegenmaßnahmen. Adversarische Angriffe sind eine der größten Herausforderungen. Angreifer versuchen, die Erkennungssysteme zu täuschen, indem sie winzige Störsignale hinzufügen oder spezielle Bearbeitungstechniken anwenden.

Um diesen Herausforderungen zu begegnen, entwickeln die Plattformen robustere Erkennungsalgorithmen. Beispielsweise wird die Topologische Fingerabdrucktechnologie verwendet, die die topologische Struktur von Audiosignalen durch Persistente Homologie analysiert. Diese Methode ist widerstandsfähiger gegenüber Zeitdehnung und Tonhöhenänderungen.

Multimodale Fusionserkennung

Moderne Videoerkennungssysteme setzen zunehmend auf multimodale Fusionsstrategien. Durch die gleichzeitige Analyse des visuellen Inhalts, der Audio-Merkmale, der Textinformationen (wie Untertitel, Titel) und der Verbreitungsmuster in sozialen Netzwerken können die Systeme einen umfassenderen Inhalts-Fingerprint erstellen.

Der Vorteil dieser Methode: Selbst wenn eine Modalität gezielt verändert wird, können die Merkmale anderer Modalitäten noch effektive Erkennungssignale liefern. Zum Beispiel, selbst wenn das Videobild stark verändert wurde, können die Audio-Eigenschaften und das Verbreitungsmuster immer noch die kopierte Natur enthüllen.

Edge-Computing-Optimierung

In Zukunft entwickelt sich die Videoerkennung in Richtung Echtzeit und Leichtgewichtigkeit. Neue Algorithmen konzentrieren sich auf:

Recheneffizienz: Entwicklung von leichtgewichtigen Erkennungsalgorithmen, die auf mobilen Geräten laufen, um die Abhängigkeit von Cloud-Diensten zu verringern.

Echtzeitfähigkeit: Ermöglichung der Echtzeiterkennung während des Video-Uploads, anstatt des traditionellen Nachbearbeitungsmodus.

Datenschutz: Inhaltserkennung unter Wahrung der Privatsphäre der Benutzer, Vermeidung von Lecks des ursprünglichen Videoinhalts.

Leistungsvergleich der Algorithmen

Die verschiedenen Erkennungsalgorithmen haben ihre eigenen Vorteile und Anwendungsszenarien:

MD5-Hash eignet sich zur Erkennung von exakt identischen Dateien, bietet extrem hohe Geschwindigkeit und Genauigkeit, kann aber keine Änderungen jeglicher Art verarbeiten.

Perceptual Hashing bietet eine gute Balance zwischen Geschwindigkeit und Robustheit und eignet sich für die Erkennung leicht modifizierter Inhalte. Es ist die bevorzugte Technologie der meisten Plattformen.

Audio-Fingerprinting hat eine extrem hohe Genauigkeit bei der Erkennung von Audioinhalten, auch bei Hintergrundgeräuschen, erfordert jedoch vergleichsweise höhere Rechenkomplexität.

Deep-Learning-Methoden können den semantischen Inhalt von Videos verstehen und bieten eine starke Erkennungsfähigkeit für komplexe Bearbeitungen, benötigen jedoch erhebliche Rechenressourcen und Trainingsdaten.

Die Zeitanalyse ist besonders geeignet, um die Zusammensetzung und Neuanordnung von Videoclips zu erkennen, hat jedoch eine relativ langsamere Verarbeitungsgeschwindigkeit und wird oft als sekundäres Überprüfungsmittel eingesetzt.

In der Praxis verwenden Videoplattformen in der Regel eine Strategie der Multi-Algorithmus-Fusion, die je nach den Eigenschaften des Videos und den Erkennungsanforderungen dynamisch die am besten geeignete Algorithmuskombination auswählt. Diese geschichtete Erkennungsarchitektur gewährleistet sowohl die Vollständigkeit der Erkennung als auch die Recheneffizienz und Kostenkontrolle.

Abschließende Gedanken

Zu den derzeit gängigen technischen Ansätzen gehören Perceptual Hashing, Audio-Fingerprinting, Deep-Learning-basierte Merkmalsextraktion und zeitliche Konsistenzanalyse, jede mit ihren eigenen Vorteilen und Anwendungsszenarien. Mit der kontinuierlichen Weiterentwicklung der Künstlichen Intelligenz werden die zukünftigen Erkennungssysteme intelligenter, in Echtzeit und präziser, während gleichzeitig ein besserer Ausgleich zwischen technologischem Fortschritt und Benutzererfahrung gefunden werden muss.