تواجه منصات الفيديو القصيرة مثل تيك توك وتيك توك ويوتيوب تحديات هائلة في إدارة المحتوى الذي ينشئه المستخدمون، حيث أصبح اكتشاف الفيديوهات المكررة والمنقولة مشكلة تقنية أساسية. يتناول هذا التقرير بعمق كيفية تقييم هذه المنصات لمدى تكرار الفيديو ونقل المحتوى، ويناقش الخوارزميات المستخدمة، ويشرح آلية عملها بالتفصيل من خلال أمثلة محددة.

الطرق الأساسية لكشف التكرار في منصات الفيديو
تقنية مقارنة بصمات التجزئة (Hash)
تعتمد منصات الفيديو أولاً على تقنية مقارنة بصمات التجزئة، وهي الطريقة الأساسية والأسرع في الكشف. تقوم المنصة بإنشاء عدة أنواع من بصمات التجزئة لكل فيديو يتم تحميله:
تعتبر بصمة MD5 أبسط طريقة، حيث يتم حساب قيمة MD5 لملف الفيديو لتحديد الملفات المتطابقة تمامًا. عندما يقوم المستخدم بتحميل فيديو غير معدل، يستطيع النظام مطابقة قيمة MD5 واكتشاف المحتوى المكرر في غضون أجزاء من الثانية. ومع ذلك، لا يمكن لهذه الطريقة اكتشاف الفيديوهات التي خضعت لأي تعديل، حتى لو كان مجرد تحويل تنسيق أو ضغط بسيط، لأن ذلك ينتج قيم MD5 مختلفة تمامًا.
أما تقنية بصمة التجزئة الإدراكية فهي أكثر تقدمًا، ويمكنها اكتشاف الفيديوهات المتشابهة بصريًا ولكنها مختلفة تقنيًا. يستخرج النظام إطارات رئيسية من الفيديو، ويُولّد رمز تجزئة ثابت الطول باستخدام تحويل جيب التمام المتقطع (DCT) أو خوارزميات أخرى. يتم حساب التشابه بين بصمتي تجزئة إدراكيتين لفيديوين باستخدام مسافة هامنج (Hamming distance)، وإذا كانت أقل من حد معين، يُعتبر المحتوى مكررًا.
تقنية بصمة الصوت
تعتبر تقنية بصمة الصوت وسيلة مهمة لاكتشاف الفيديوهات المنقولة في منصات الفيديو، وأشهرها تقنية التعرف على الصوت المستندة إلى خوارزمية شازام (Shazam). تحلل هذه التقنية الخصائص الطيفية للإشارة الصوتية لتوليد "بصمة صوتية" فريدة تميز المحتوى الصوتي المتطابق أو المشابه.
تتضمن عملية توليد بصمة الصوت: أولاً، أخذ عينات من الصوت بتردد 44.1 كيلوهرتز، ثم توليد مخطط طيفي باستخدام **تحويل فورييه القصير (STFT)**. يستخرج النظام نقاط الذروة من المخطط الطيفي، والتي تمثل المكونات الترددية الأبرز في الإشارة الصوتية. بعد ذلك، تقوم الخوارزمية بإقران نقاط الذروة هذه لتشكيل "مخطط كوكبة"، حيث يحتوي كل زوج على قيمتين تردديتين والفارق الزمني بينهما: كوكبة(ن1,ن2,Δز)=(ت1,ت2,Δز)Constellation(P1,P2,Δt)=(f1,f2,Δt).
تحليل الميزات البصرية
تتبنى منصات الفيديو الحديثة على نطاق واسع تقنية استخراج الميزات البصرية المعتمدة على التعلم العميق. باستخدام نماذج التعلم العميق مثل الشبكات العصبية التلافيفية (CNN)، يستطيع النظام استخراج الميزات الدلالية عالية المستوى لإطارات الفيديو، والتي تلتقط جوهر المحتوى البصري بدلاً من معلومات البكسل السطحية.
ميزة هذه الطريقة هي قدرتها على اكتشاف الفيديوهات التي خضعت لتعديلات معقدة، مثل تغيير الألوان أو الاقتصاص أو إضافة علامات مائية أو تغيير السرعة. حتى إذا حدثت تغييرات ملحوظة في مستوى البكسل، فإن الميزات الدلالية العميقة تظل مستقرة نسبيًا.

كشف الاتساق الزمني
تحليل الاتساق الزمني هو بعد مهم آخر لاكتشاف نقل الفيديو. تحلل هذه التقنية العلاقات الزمنية بين إطارات الفيديو واستمرارية الحركة لتحديد المحتوى المكرر. تُعد طريقة الكشف ثنائي المستوى (Dual-level Detection) تقدمًا كبيرًا في هذا المجال، وتشمل مستويين: كشف تحرير الفيديو (VED) وكشف مشاهد الإطارات (FSD).
تتحقق وحدة كشف تحرير الفيديو أولاً مما إذا كان الفيديو قد خضع لتحرير. بالنسبة للفيديو غير المحرر، يستخدم النظام متجهًا عشوائيًا كوصف لتوفير الموارد الحاسوبية. بالنسبة للفيديو المحرر، يقوم النظام بتحليل أعمق على مستوى الإطار، بما في ذلك اكتشاف ما إذا كان الفيديو يحتوي على تجميع لمشاهد متعددة.
شرح الخوارزميات الأساسية بالتفصيل
عائلة خوارزميات بصمة التجزئة الإدراكية
خوارزمية pHash (بصمة التجزئة الإدراكية) هي تقنية مستخدمة على نطاق واسع في كشف تكرار الفيديو. تولد هذه الخوارزمية قيمة التجزئة من خلال الخطوات التالية: أولاً، يتم تقليص حجم الصورة إلى 32×32 بكسل، ثم يتم تطبيق تحويل جيب التمام المتقطع (DCT) لاستخراج الخصائص الترددية للصورة. بعد ذلك، تحتفظ الخوارزمية بمنطقة 8×8 في الزاوية العلوية اليسرى من معاملات DCT (المكونات منخفضة التردد)، وتحسب متوسط هذه المعاملات، وأخيراً تُولّد رمز تجزئة ثنائي 64 بت بمقارنة كل معامل مع المتوسط.
تتبع خوارزمية dHash (بصمة التجزئة التفاضلية) إستراتيجية مختلفة، حيث تقوم بتقليص الصورة إلى 9×8 بكسل، ثم تحسب الفروق بين البكسلات المتجاورة. إذا كان البكسل أكثر سطوعًا من جاره الأيمن، يتم تسجيل 1 في رمز التجزئة، وإلا يتم تسجيل 0. هذه الطريقة أكثر حساسية للتغيرات الأفقية في الصورة، ويمكنها التقاط الخصائص الهيكلية للصورة بشكل أفضل.
تحليل متعمق لخوارزمية بصمة الصوت

يتمثل جوهر خوارزمية شازام في تقنية مطابقة مخطط الكوكبة. تقوم الخوارزمية أولاً بتحويل الإشارة الصوتية في المجال الزمني إلى تمثيل في المجال الترددي باستخدام تحويل فورييه السريع (FFT):
STFT(t,f)=∑n=0N−1x(t+n)⋅e−j2πfnSTFT(t,f)=∑n=0N−1x(t+n)⋅e−j2πfn
حيث x(t+n)x(t+n) تمثل نقاط أخذ العينات الصوتية ضمن النافذة الزمنية، وe−j2πfne−j2πfn هي دالة أسية مركبة.
تمر عملية استخراج الذروة بتحديد عتبة لتحديد النقاط البارزة في المخطط الطيفي:
STFT(t,f) & \text{إذا كان} STFT(t,f) > threshold \\ 0 & \text{خلاف ذلك} \end{cases}$$ بناء مخطط الكوكبة هو خطوة أساسية في الخوارزمية. يقوم النظام بإقران نقاط الذروة المستخرجة، بحيث يحتوي كل زوج على قيمتين تردديتين والفارق الزمني بينهما. تجعل طريقة الاقتران هذه الخوارزمية مقاومة بشدة للضوضاء والتشوهات الصوتية الطفيفة. [4] تقوم عملية توليد بصمة التجزئة بتحويل معلومات مخطط الكوكبة إلى بصمة رقمية مضغوطة: $$Hash(P1, P2, \Delta t) = Hash(f1, f2, \Delta t)$$ يتم تخزين قيمة التجزئة هذه كمعرف فريد للمقطع الصوتي في قاعدة البيانات لاستخدامها في المطابقة السريعة لاحقًا. [4] ### استخراج الميزات باستخدام التعلم العميقتمثل تقنية بصمة التجزئة الذاتية الإشراف للفيديو (SSVH) أحدث تطبيقات التعلم العميق في كشف تكرار الفيديو. تعتمد هذه التقنية على هيكل ترميز ذاتي ثنائي هرمي، يتضمن مُشفرًا وثلاثة مفككات: مفكك ثنائي هرمي أمامي، ومفكك ثنائي هرمي خلفي، ومفكك ثنائي هرمي عالمي.
يستخدم المُشفر بنية LSTM ثنائي (BLSTM)، والتي يمكنها توليد بصمة تجزئة ثنائية مباشرة دون الحاجة إلى خطوات معالجة لاحقة. يتبع تدفق البيانات في BLSTM نمط LSTM القياسي، ولكنه يضيف في النهاية دالة الإشارة bt=sgn(ht)bt=sgn(ht) لإنتاج مخرجات ثنائية.
لحل مشكلة صعوبة التحسين الثنائي (NP-hard)، تستخدم الخوارزمية دالة إشارة تقريبية:
-1 & \text{عند} h < -1 \\ h & \text{عند} -1 \leq h \leq 1 \\ 1 & \text{عند} h > 1 \end{cases}$$ تسمح هذه الطريقة التقريبية بتمرير التدرج خلال دالة الإشارة أثناء الانتشار العكسي، مما يجعل الشبكة بأكملها قابلة للتدريب من النهاية إلى النهاية. [9] ### خوارزمية تحليل الاتساق الزمنيخوارزمية إعادة الترتيب للاتساق الزمني هي تقنية أساسية لتحديد موقع مقاطع الفيديو. تستخرج هذه الخوارزمية أولاً ميزات مستوى الصورة باستخدام تجميع النقاط الأساسية والتعلم العميق، ثم تستخدم هيكل شجرة k-d متعددة لإجراء بحث KNN فعال، والحصول على مجموعة من مقاطع الفيديو المرشحة.
يكمن الابتكار في الخوارزمية في خطوة تقليم الاتساق الزمني، حيث يتم تحديد المقاطع المتطابقة ومواقعها الزمنية داخل التسلسل بدقة من خلال تحليل معلومات الطابع الزمني والمعرف التسلسلي للمقاطع المرشحة. يمكن لهذه الطريقة إجراء استعلام إطار واحد في قاعدة بيانات تحتوي على مليون إطار بسرعة 83.96 مللي ثانية، ووقت استعلام يبلغ 462.59 مللي ثانية في قاعدة بيانات تحتوي على 4.5 مليون إطار.
دراسة حالات تطبيقية
نظام Content ID من YouTube
يعد نظام Content ID من YouTube أحد أكثر تقنيات اكتشاف حقوق النشر نضجًا في الصناعة. يعتمد النظام على إستراتيجية كشف متعددة المستويات:
المستوى الأول هو مطابقة بصمة الصوت. يُولّد النظام بصمة صوتية لكل فيديو يتم تحميله ويقارنها بقاعدة بيانات مرجعية ضخمة. حتى إذا خضع الصوت لتغيير في درجة الصوت أو تعديل في السرعة أو إضافة ضوضاء خلفية، لا يزال النظام قادرًا على اكتشاف المحتوى المتطابق من خلال التحليل الطيفي.
المستوى الثاني هو تحليل المحتوى البصري. يستخدم النظام نماذج التعلم العميق لتحليل الميزات البصرية للفيديو، بما في ذلك توزيع الألوان وأنماط النسيج والتعرف على الكائنات. تُرمز هذه الميزات إلى متجهات عالية الأبعاد، ويتم حساب التشابه بين الفيديوهات باستخدام معامل تشابه جيب التمام.
المستوى الثالث هو مقارنة البيانات الوصفية. يقارن النظام البيانات الوصفية للفيديو مثل العنوان والوصف والعلامات، ويجمع النتائج مع التقنيات المذكورة أعلاه لاتخاذ قرار شامل.
آلية الكشف المزدوج من TikTok/تيك توك
تعتمد تيك توك وتيك توك (النسخة الصينية) آلية كشف مزدوجة للتعامل مع خصوصية الفيديوهات القصيرة:
الكشف في الوقت الفعلي: أثناء تحميل المستخدم للفيديو، يقوم النظام بحساب بصمة التجزئة الإدراكية وبصمة الصوت للفيديو في الوقت الفعلي. من خلال المقارنة السريعة مع قاعدة البيانات الحالية، يستطيع النظام تحديد المحتوى المكرر الواضح في غضون ثوانٍ.
التحليل العميق دون اتصال: بالنسبة للفيديوهات التي تجتاز الكشف في الوقت الفعلي، يقوم النظام بتحليل أعمق في الخلفية. يستخدم نموذج CNN لاستخراج الميزات الدلالية وتحليل درجة الإبداع في المحتوى. بالنسبة للفيديوهات التي تم اكتشاف تعديلات طفيفة فيها، يحسب النظام درجة التشابه، ويتم وضع علامة على المحتوى الذي يتجاوز الحد كمشتبه بنقله.
بيانات أداء الكشف الفعلية
وفقًا لبيانات الأبحاث، يمكن لتقنية بصمة الصوت الحديثة تحقيق دقة 100% في ظل الظروف المثالية:
-
مقطع صوتي لمدة 1 ثانية: دقة التعرف 60%
-
مقطع صوتي لمدة 2 ثانية: دقة التعرف 95.6%
-
5 ثوانٍ أو أكثر: دقة التعرف 100%
بالنسبة لكشف الفيديو، حققت طريقة الكشف ثنائي المستوى معدل استدعاء 98.8% على مجموعة بيانات FIVR-200K، و94.1% على مجموعة بيانات VCSL.
أداء تقنية بصمة التجزئة الإدراكية كالتالي:
-
سرعة المعالجة: أقل من 1 مللي ثانية لكل إطار
-
كفاءة التخزين: كل إطار فيديو يتطلب 8 بايت فقط لتخزين بصمة التجزئة
-
دقة الكشف: بالنسبة للفيديوهات المعدلة قليلاً، تصل دقة الكشف إلى 85-90%
التحديات والاتجاهات التقنية المستقبلية
مواجهة الهجمات المضادة
مع الازدهار العالمي للفيديوهات القصيرة، يقوم منقولو المحتوى بتطوير وسائل مضادة للكشف. الهجمات المضادة هي أحد التحديات الرئيسية التي تواجهها الأنظمة حاليًا. يضيف المهاجمون إشارات تشويش طفيفة إلى الفيديو أو يستخدمون تقنيات تحرير محددة لمحاولة خداع أنظمة الكشف.
لمواجهة هذه التحديات، تعمل المنصات على تطوير خوارزميات كشف أكثر قوة. على سبيل المثال، استخدام تقنية بصمة التوبولوجي لتحليل البنية التوبولوجية للإشارات الصوتية من خلال نظرية التماثل المستمر، وهي أكثر مقاومة لتمديد الزمن وتغير درجة الصوت.
الكشف متعدد الوسائط المدمج
تتبنى أنظمة الكشف الحديثة بشكل متزايد إستراتيجية دمج متعدد الوسائط. من خلال تحليل المحتوى البصري للفيديو والميزات الصوتية والمعلومات النصية (مثل الترجمة والعنوان) وأنماط الانتشار على الشبكات الاجتماعية في وقت واحد، يستطيع النظام بناء بصمة محتوى أكثر شمولاً.
تتمثل ميزة هذه الطريقة في أنه حتى إذا تم تعديل وسيط معين عمدًا، فإن ميزات الوسائط الأخرى لا تزال قادرة على توفير إشارات كشف فعالة. على سبيل المثال، حتى إذا تم تعديل إطارات الفيديو بشكل كبير، فإن ميزاته الصوتية وأنماط انتشاره قد تظل تكشف عن طبيعة النقل.
تحسين الحوسبة الطرفية
في المستقبل، يتجه كشف الفيديو نحو الاتجاه الآني والخفيف. تركز تصميمات الخوارزميات الجديدة على:
كفاءة الحوسبة: تطوير خوارزميات كشف خفيفة يمكن تشغيلها على الأجهزة المحمولة، مما يقلل الاعتماد على خدمات السحابة.
الآنية: تحقيق الكشف في الوقت الفعلي أثناء تحميل الفيديو بدلاً من وضع المعالجة اللاحقة التقليدي.
حماية الخصوصية: إجراء كشف المحتوى مع الحفاظ على خصوصية المستخدم، وتجنب تسرب محتوى الفيديو الأصلي.
مقارنة أداء الخوارزميات
تتمتع كل خوارزمية كشف بمزاياها ومجالات تطبيقها الخاصة:
بصمة MD5 مناسبة لكشف الملفات المتطابقة تمامًا، وتتميز بسرعة عالية ودقة عالية، ولكنها لا تستطيع التعامل مع أي شكل من أشكال التعديل.
تحقق بصمة التجزئة الإدراكية توازنًا جيدًا بين السرعة والمتانة، ومناسبة لكشف المحتوى المعدل قليلاً، وهي التقنية المفضلة لمعظم المنصات.
بصمة الصوت دقيقة للغاية في كشف المحتوى الصوتي، وتحافظ على أداء جيد حتى مع وجود ضوضاء خلفية، ولكن تعقيدها الحسابي مرتفع نسبيًا.
يمكن لطرق التعلم العميق فهم المحتوى الدلالي للفيديو، ولديها قدرة قوية على كشف التعديلات المعقدة، ولكنها تتطلب موارد حاسوبية كبيرة وبيانات تدريب.
يتفوق التحليل الزمني في كشف تجميع مقاطع الفيديو وإعادة تركيبها، ولكنه أبطأ نسبيًا، ويُستخدم عادةً كوسيلة تحقق ثانوية.
في التطبيقات العملية، تعتمد منصات الفيديو عادةً إستراتيجية دمج خوارزميات متعددة، واختيار أفضل مجموعة خوارزميات ديناميكيًا وفقًا لخصائص الفيديو ومتطلبات الكشف. يضمن هذا الهيكل الهرمي للكشف شمولية الكشف مع مراعاة الكفاءة الحسابية والتحكم في التكاليف.
ختامًا
تشمل المسارات التقنية السائدة حاليًا بصمة التجزئة الإدراكية وبصمة الصوت واستخراج الميزات بالتعلم العميق وتحليل الاتساق الزمني، ولكل تقنية مزاياها ومجالات تطبيقها الفريدة. مع التطور المستمر لتقنية الذكاء الاصطناعي، ستصبح أنظمة الكشف المستقبلية أكثر ذكاءً وفورية ودقة، مع ضرورة إيجاد توازن أفضل بين التقدم التقني وتجربة المستخدم.