هكذا تسرب منصات الذكاء الاصطناعي بياناتكم

20 يونيو 2023 . الساعة 09:55 ص بتوقيت القدس

رابط مختصر

نشر مجموعة من الباحثين في جامعات أميركية وسويسرية بالتعاون مع شركة "غوغل" وشركتها الفرعية DeepMind، ورقة بحثية توضح كيف يمكن أن تتسرب البيانات من منصات إنشاء الصور التي تستند في عملها إلى نماذج الذكاء الاصطناعي التوليدي مثل: DALL-E أو Imagen أو Stable Diffusion.

إذ تعمل هذه المنصات جميعها بالطريقة نفسها التي تعتمد على جانب المستخدم الذي يكتب مطالبة نصية محددة، على سبيل المثال: "كرسي بذراعين على شكل ثمرة أفوكادو"، ويحصل على صورة مولدة من النص خلال ثوانٍ.

وقد دُربت نماذج الذكاء الاصطناعي التوليدي المستخدمة في هذه المنصات على عدد كبير جدًا من الصور التي تحمل وصفًا محددًا سابقًا، وتكمن فكرة الشبكات العصبية في قدرتها على إنشاء صور جديدة وفريدة بعد معالجة كمية هائلة من بيانات التدريب.

ومع ذلك، تُظهر الدراسة الجديدة أن هذه الصور ليست دائمًا فريدة، وفي بعض الحالات، يمكن أن تقوم الشبكة العصبية بإعادة إنتاج صورة مطابقة تمامًا لصورة سابقة استخدمت في التدريب، وهذا يعني أن الشبكات العصبية قد تكشف عن المعلومات الخاصة دون قصد.

وتتحدى هذه الدراسة وجهات النظر القائلة إن نماذج الذكاء الاصطناعي المستخدمة في توليد الصور لا تحفظ بيانات التدريب الخاصة بها، وإن بيانات التدريب قد تظل خاصة إذا لم يُكشف عنها.

تقديم المزيد من البيانات

يمكن أن تكون نتائج أنظمة التعلم العميق مدهشة بالنسبة لغير المتخصصين، ويمكن أن يظنوا أنها سحرية، ولكن في الواقع، ليس هناك أي سحر في الأمر، فجميع الشبكات العصبية تستند في عملها إلى المبدأ نفسه، وهو التدريب باستخدام مجموعة كبيرة من البيانات، وتوصيفات دقيقة لكل صورة، على سبيل المثال: سلاسل من صور القطط والكلاب.

وبعد التدريب، تعرض الشبكة العصبية صورة جديدة ويُطلب منها تحديد هل هي لقطة أم كلب؟ ومن هذه النقطة المتواضعة، ينتقل مُطوّرو هذه النماذج إلى سيناريوهات أكثر تعقيدًا، فيقومون بإنشاء صورة لحيوان أليف غير موجود بالفعل باستخدام الخوارزمية التي دُربت على العديد من صور القطط. وتُجرى هذه التجارب ليس فقط باستخدام الصور، ولكن أيضًا بالنصوص ومقاطع الفيديو وحتى الصوت.

نقطة البداية لجميع الشبكات العصبية هي مجموعة بيانات التدريب، إذ لا تستطيع الشبكات العصبية إنشاء كائنات جديدة من العدم. على سبيل المثال، لإنشاء صورة لِقطةٍ، يجب على الخوارزمية دراسة آلاف الصور الفوتوغرافية أو الرسومات الحقيقية للقطط.

جهود كبيرة للحفاظ على سرية مجموعات البيانات

يُولي الباحثون في ورقتهم البحثية نماذج التعلم الآلي اهتمامًا خاصًا، ويعملون على النحو التالي: تشويه بيانات التدريب – وهي صور الأشخاص والسيارات والمنازل وما إلى ذلك – عن طريق إضافة تشويش، وبعد ذلك، تُدرب الشبكة العصبية على استعادة هذه الصور إلى حالتها الأصلية.

وتتيح هذه الطريقة إمكانية إنشاء صور ذات جودة مقبولة، لكن العيب المحتمل – بالمقارنة مع الخوارزميات في الشبكات التنافسية التوليدية، على سبيل المثال – هو ميلها الأكبر لتسريب البيانات. إذ يمكن استخراج البيانات الأصلية منها بثلاث طرق مختلفة على الأقل، وهي:

- استخدام استعلامات محددة لإجبار الشبكة العصبية على إخراج صورة مصدر محدد، وليس شيئًا فريدًا تم إنشاؤه بناءً على آلاف الصور.
- يمكن إعادة بناء الصورة الأصلية حتى لو توفر جزء منها فقط.
- من الممكن ببساطة تحديد إذا كانت صورة معينة مُضمنة في بيانات التدريب أم لا.
وفي كثير من الأحيان، تكون الشبكات العصبية كسولة، وبدلاً من إنتاج صورة جديدة، فإنها تنتج شيئًا من مجموعة التدريب إذا كان يحتوي على عدة نسخ مكررة من الصورة نفسها. إذا تكررت صورة في مجموعة التدريب أكثر من مئة مرة، فهناك فرصة كبيرة جدًا لتسريبها في شكلها شبه الأصلي.

ومع ذلك، أظهر الباحثون طرقًا لاسترداد صور التدريب التي ظهرت مرة واحدة فقط في المجموعة الأصلية، فمن بين 500 صورة اختبرها الباحثون، أعادت الخوارزمية بشكل عشوائي إنشاء ثلاثة منها.

مَن سرق من؟

في يناير 2023، رفع ثلاثة فنانين دعوى قضائية ضد منصات توليد الصور التي تستند في عملها إلى الذكاء الاصطناعي بسبب استخدام صورهم الموجودة عبر الإنترنت لتدريب نماذجها دون أي احترام لحقوق التأليف والنشر.

وتستطيع الشبكة العصبية بالفعل نسخ أسلوب فنان معين، ومن ثم تحرمه من الدخل. وتشير الورقة البحثية إلى أنه في بعض الحالات، تستطيع الخوارزميات، لأسباب مختلفة، التورط في الانتحال الصريح، وتوليد رسومات وصور فوتوغرافية وصور أخرى تكاد تكون متطابقة مع أعمال الأشخاص الحقيقيين.

لذلك قدم الباحثون توصيات لتعزيز خصوصية مجموعة التدريب الأصلية:

1- التخلص من التكرار في مجموعات التدريب.
2- إعادة معالجة صور التدريب، على سبيل المثال: عن طريق إضافة تشويش أو تغيير السطوع؛ ويجعل هذا تسريب البيانات أقل احتمالًا.
3- اختبار الخوارزمية باستخدام صور تدريبية خاصة، ثم التحقق من أنها لا تعيد إنتاجها بدقة دون قصد.

وكالات

تعرف على أحد منفذي هجوم شاطئ بونداي بأستراليا

القضاء الإسرائيلي يلغي قرار نتنياهو إقالة المستشارة القضائية

هذا هو العائق الأبرز أمام بدء المرحلة الثانية من الاتفاق في غزة

"القسام" تزف الشهيد رائد سعد وتعلن تكليف قائد جديد للقيام بمهامه

10 قتلى بإطلاق نار خلال احتفالات بعيد "الحانوكا" بأستراليا

الحية: متمسكون بالاتفاق ونؤكد رفضنا لكل مظاهر الوصاية والانتداب

بلدية غزة تحذّر من مخاطر فيضانات وانهيارات جراء منخفض جوي عميق

استشهاد أسير فلسطيني داخل سجون الاحتلال

داخلية غزة تعلن اغتيال أحد ضباطها بنيران مسلحين

براك إلى "إسرائيل" الاثنين

حماس: نرفض الوصاية على غزة ونتمسك بحق المقاومة

غارات على رفح وخان يونس وقصف مدفعي شرق غزة

هجوم على نتنياهو بعد فيديو يُظهر أسرى إسرائيليين قبل مقتلهم بغزة

أول رد من حماس على القصف الإسرائيلي في غزة

جيش الاحتلال ينذر أهالي قرية يانوح بجنوب لبنان بإخلائها

الاحتلال يزعم اغتيال "الرجل الثاني" في كتائب القسام

الدوحة تنظم مـؤتمراً لوضع خطة لإنشاء قوة دولية لإرساء الاستقرار في غزة

5 شهداء و25 إصابة في قصف إسرائيلي استهدف سيارة مدنية جنوب غرب غزة

صحيفة: واشنطن طلبت من "إسرائيل" تحمل مسؤولية إزالة الدمار في غزة

جيش الاحتلال: استهدفنا مجمع تدريب لحزب الله جنوبي لبنان

احذروا..

هكذا تسرب منصات الذكاء الاصطناعي بياناتكم

الأكثر قراءة

هذه أول إشارة من "القسام" قبل عشرة أشهر من وقوع هجوم 7 أكتوبر

السعودية تسمح لمواطني هذه الدولة الدخول دون تأشيرة

تعرف على شخصية غسان الدهيني المثيرة للجدل

تعرف على أحد منفذي هجوم شاطئ بونداي بأستراليا

"شخص وضيع"..

هجوم على نتنياهو بعد فيديو يُظهر أسرى إسرائيليين قبل مقتلهم بغزة