ما هي تقنية التزييف العميق؟

هذه المقالة جزء من إزالة الغموض عن تقنية التزييف العميق : في عام 2018 ، أظهر لنا أحد كبار المعجبين بنيكولاس كيج كيف سيبدو فيلم The Fellowship of the Ring إذا لعب Cage دور Frodo و Aragorn و Gimly و Legolas. كانت التكنولوجيا التي استخدمها هي deepfake ، وهو نوع من التطبيقات التي تستخدم خوارزميات الذكاء الاصطناعي لمعالجة مقاطع الفيديو.

تشتهر تقنية التزييف العميق Deepfakes في الغالب بقدرتها على تبديل وجوه الممثلين من فيديو إلى آخر. ظهرت لأول مرة في عام 2018 وسرعان ما صعدت إلى الشهرة بعد أن تم استخدامها لتعديل مقاطع الفيديو للبالغين لإبراز وجوه ممثلي هوليوود والسياسيين.

في العامين الماضيين ، تسببت التزييف العميق في الكثير من القلق بشأن ظهور موجة جديدة من مقاطع الفيديو المدعومة بالذكاء الاصطناعي والتي يمكن أن تنشر أخبارًا مزيفة وتمكن المزورين والمحتالين

يأتي “التزييف العميق” من استخدام التعلم العميق ، وهو فرع الذكاء الاصطناعي الذي أصبح شائعًا للغاية في العقد الماضي. تحاكي خوارزميات التعلم العميق تقريبًا قدرات التعلم القائم على التجربة للإنسان والحيوان. إذا قمت بتدريبهم على أمثلة كافية لمهمة ما ، فسيكونون قادرين على تكرارها في ظل ظروف محددة.

الفكرة الأساسية هي تدريب مجموعة من الشبكات العصبية الاصطناعية ، المكون الرئيسي لخوارزميات التعلم العميق ، على أمثلة متعددة للممثل والوجوه المستهدفة. من خلال التدريب الكافي ، ستتمكن الشبكات العصبية من إنشاء تمثيلات رقمية لميزات كل وجه. ثم كل ما عليك فعله هو إعادة توصيل الشبكات العصبية لتعيين وجه الممثل على الهدف.

أجهزة التشفير التلقائي


تأتي خوارزميات التعلم العميق بتنسيقات مختلفة. يعتقد الكثير من الناس أن التزييف العميق يتم إنشاؤه باستخدام شبكات الخصومة التوليدية (GAN) ، وهي خوارزمية التعلم العميق التي تتعلم إنشاء صور واقعية من الضوضاء. وهذا صحيح ، هناك اختلافات في شبكات GAN يمكن أن تخلق التزييف العميق.

لكن النوع الرئيسي من الشبكات العصبية المستخدمة في أجهزة إزالة التزييف هو “التشفير التلقائي”. يعد التشفير التلقائي نوعًا خاصًا من خوارزمية التعلم العميق التي تؤدي مهمتين. أولاً ، يقوم بترميز صورة الإدخال إلى مجموعة صغيرة من القيم العددية. (في الواقع ، يمكن أن يكون أي نوع آخر من البيانات ، ولكن نظرًا لأننا نتحدث عن التزييف العميق ، فسنلتزم بالصور.) يتم التشفير من خلال سلسلة من الطبقات التي تبدأ بالعديد من المتغيرات وتصبح تدريجياً أصغر حتى تصل إلى طبقة “عنق الزجاجة”. تحتوي طبقة عنق الزجاجة على العدد المستهدف من المتغيرات.

بعد ذلك ، تقوم الشبكة العصبية بفك تشفير البيانات الموجودة في طبقة عنق الزجاجة وإعادة إنشاء الصورة الأصلية.

أثناء التدريب ، يتم تزويد جهاز التشفير التلقائي بسلسلة من الصور. الهدف من التدريب هو إيجاد طريقة لضبط المعلمات في طبقات التشفير وفك التشفير بحيث تكون صورة الإخراج مشابهة لصورة الإدخال قدر الإمكان.

كلما كان مجال المشكلة ضيقًا ، زادت دقة نتائج وحدة التشفير التلقائي. على سبيل المثال ، إذا قمت بتدريب جهاز تشفير تلقائي على صور وجهك فقط ، فستجد الشبكة العصبية في النهاية طريقة لترميز ميزات وجهك (الفم والعينين والأنف وما إلى ذلك) في مجموعة صغيرة من القيم العددية و استخدمها لإعادة إنشاء صورتك بدقة عالية.

يمكنك التفكير في جهاز التشفير التلقائي باعتباره خوارزمية فائقة الذكاء لفك الضغط. على سبيل المثال ، يمكنك تشغيل صورة في جزء التشفير من الشبكة العصبية ، واستخدام تمثيل عنق الزجاجة للتخزين الصغير أو النقل السريع للبيانات عبر الشبكة. عندما تريد عرض الصورة ، ما عليك سوى تشغيل القيم المشفرة خلال نصف فك التشفير وإعادتها إلى حالتها الأصلية.

ولكن هناك أشياء أخرى يمكن لجهاز التشفير التلقائي القيام بها. على سبيل المثال ، يمكنك استخدامه لتقليل الضوضاء أو إنشاء صور جديدة.

Deepfake autoencoders


تستخدم تطبيقات تقنية التزييف العميق Deepfake تكوينًا خاصًا لأدوات التشفير التلقائي. في الواقع ، يستخدم مولد التزييف العميق اثنين من أجهزة التشفير التلقائية ، أحدهما تم تدريبه على وجه الممثل والآخر تم تدريبه على الهدف.

بعد أن يتم تدريب أجهزة التشفير التلقائي ، تقوم بتبديل مخرجاتها ، ويحدث شيء مثير للاهتمام. يأخذ المشفر التلقائي للهدف إطارات فيديو للهدف ، ويرمز ملامح الوجه إلى قيم عددية في طبقة عنق الزجاجة. بعد ذلك ، يتم تغذية هذه القيم إلى طبقات مفكك التشفير الخاصة بوحدة التشفير التلقائي للممثل. ما يخرج هو وجه الممثل بتعبير الوجه للهدف.

باختصار ، يلتقط المشفر التلقائي تعبيرات الوجه لشخص ما ويرسمها على وجه شخص آخر.

Obama Deepfake Max Amini
Obama Deepfake Max Amini 1

مفهوم التزييف العميق deepfake بسيط للغاية. لكن التدريب يتطلب جهدا كبيرا. لنفترض أنك تريد إنشاء نسخة مزيفة من Forrest Gump يقوم ببطولتها John Travolta بدلاً من Tom Hanks.

أولاً ، تحتاج إلى تجميع مجموعة بيانات التدريب للممثل (جون ترافولتا) والمشفرات التلقائية المستهدفة (توم هانكس). وهذا يعني جمع الآلاف من إطارات الفيديو لكل شخص واقتصاصها لإظهار الوجه فقط. من الناحية المثالية ، سيتعين عليك تضمين صور من زوايا مختلفة وظروف إضاءة مختلفة حتى تتمكن شبكاتك العصبية من تعلم تشفير ونقل الفروق الدقيقة المختلفة للوجوه والبيئات. لذلك ، لا يمكنك التقاط فيديو واحد لكل شخص واقتصاص إطارات الفيديو. سيكون عليك استخدام مقاطع فيديو متعددة. هناك أدوات تعمل على أتمتة عملية الاقتصاص ، لكنها ليست مثالية ولا تزال تتطلب جهودًا يدوية.

لا يمكنك إنشاء التزييف العميق لجارك إلا إذا كان لديك ساعات من مقاطع الفيديو الخاصة بهم في إعدادات مختلفة.

بعد جمع مجموعات البيانات ، سيكون عليك تدريب الشبكات العصبية. إذا كنت تعرف كيفية ترميز خوارزميات التعلم الآلي ، فيمكنك إنشاء برامج التشفير التلقائية الخاصة بك. بدلاً من ذلك ، يمكنك استخدام تطبيق deepfake مثل Faceswap ، والذي يوفر واجهة مستخدم سهلة الاستخدام ويظهر تقدم نموذج AI مع استمرار تدريب الشبكات العصبية.

اعتمادًا على نوع الجهاز الذي تستخدمه ، يمكن أن يستغرق تدريب التزييف العميق وإنشاءه من عدة ساعات إلى عدة أيام. بمجرد أن تنتهي العملية ، سيكون لديك فيديو deepfake الخاص بك. في بعض الأحيان ، لن تكون النتيجة مثالية ، وحتى تمديد عملية التدريب لن يؤدي إلى تحسين الجودة. قد يكون هذا بسبب بيانات التدريب السيئة أو اختيار التكوين الخاطئ لنماذج التعلم العميق الخاصة بك. في هذه الحالة ، ستحتاج إلى إعادة ضبط الإعدادات وإعادة تشغيل التدريب من البداية.

في حالات أخرى ، هناك بعض الثغرات والعيوب البسيطة التي يمكن تسويتها مع بعض أعمال المؤثرات البصرية في Adobe After Effects.

على أي حال ، في مرحلتها الحالية ، لا تعد عمليات التزييف العميق عملية نقر. لقد أصبحوا أفضل كثيرًا ، لكنهم ما زالوا يحتاجون إلى قدر كبير من الجهد اليدوي.

كشف تقنية التزييف العميق


مقاطع الفيديو التي تم التلاعب بها ليست شيئًا جديدًا. كانت استوديوهات الأفلام تستخدمها في السينما منذ عقود. لكن في السابق ، تطلبوا جهودًا هائلة من الخبراء والوصول إلى معدات الاستوديو باهظة الثمن. على الرغم من أنها ليست تافهة حتى الآن ، إلا أن تقنية التزييف العميق تضع التلاعب بالفيديو تحت تصرف الجميع. في الأساس ، يمكن لأي شخص لديه بضع مئات من الدولارات لتجنيبها والأعصاب اللازمة لخوض هذه العملية إنشاء صورة مزيفة عميقة من الطابق السفلي الخاص بهم.

بطبيعة الحال ، أصبحت تقنية التزييف العميق مصدر قلق ويُنظر إليها على أنها تهديد لثقة الجمهور. تشارك جميع الوكالات الحكومية ومختبرات الأبحاث الأكاديمية وشركات وسائل التواصل الاجتماعي في جهود لبناء أدوات يمكنها اكتشاف مقاطع الفيديو التي تعتمد على الذكاء الاصطناعي.

يبحث Facebook في اكتشاف التزييف العميق لمنع انتشار الأخبار المزيفة على شبكته الاجتماعية. أطلقت وكالة مشاريع الأبحاث الدفاعية المتقدمة (DARPA) ، الذراع البحثية لوزارة الدفاع الأمريكية ، أيضًا مبادرة لوقف التزييف العميق وأدوات التضليل الآلي الأخرى. وقد أطلقت Microsoft مؤخرًا أداة الكشف عن التزييف العميق قبل الانتخابات الرئاسية الأمريكية.

لقد طور باحثو الذكاء الاصطناعي بالفعل أدوات مختلفة لاكتشاف التزييف العميق. على سبيل المثال ، احتوت التزييف العميق في وقت سابق على آثار بصرية مثل العيون غير المطمئنة والاختلافات غير الطبيعية في لون البشرة. قامت إحدى الأدوات بوضع علامة على مقاطع الفيديو التي لا يرمش فيها الأشخاص أو يرمشون بفواصل زمنية غير طبيعية.

تستخدم طريقة أخرى أكثر حداثة خوارزميات التعلم العميق لاكتشاف علامات التلاعب عند حواف الكائنات في الصور. هناك طريقة مختلفة تتمثل في استخدام blockchain لإنشاء قاعدة بيانات لتوقيعات مقاطع الفيديو المؤكدة وتطبيق التعلم العميق لمقارنة مقاطع الفيديو الجديدة بالحقيقة الأساسية.

لكن المعركة ضد التزييف العميق تحولت بشكل فعال إلى مطاردة القط والفأر. نظرًا لأن تقنية التزييف العميق تتحسن باستمرار ، تفقد العديد من هذه الأدوات كفاءتها. كما قال لي أحد أساتذة رؤية الكمبيوتر العام الماضي : “أعتقد أن التزييف العميق يشبه سباق التسلح. لأن الناس ينتجون تزويرًا عميقًا مقنعًا بشكل متزايد ، وفي يوم من الأيام قد يصبح من المستحيل اكتشافها “.

منصة راسل
Logo