هكذا تسرب منصات الذكاء الاصطناعي بياناتكم

20 يونيو 2023 . الساعة 09:55 ص بتوقيت القدس

رابط مختصر

نشر مجموعة من الباحثين في جامعات أميركية وسويسرية بالتعاون مع شركة "غوغل" وشركتها الفرعية DeepMind، ورقة بحثية توضح كيف يمكن أن تتسرب البيانات من منصات إنشاء الصور التي تستند في عملها إلى نماذج الذكاء الاصطناعي التوليدي مثل: DALL-E أو Imagen أو Stable Diffusion.

إذ تعمل هذه المنصات جميعها بالطريقة نفسها التي تعتمد على جانب المستخدم الذي يكتب مطالبة نصية محددة، على سبيل المثال: "كرسي بذراعين على شكل ثمرة أفوكادو"، ويحصل على صورة مولدة من النص خلال ثوانٍ.

وقد دُربت نماذج الذكاء الاصطناعي التوليدي المستخدمة في هذه المنصات على عدد كبير جدًا من الصور التي تحمل وصفًا محددًا سابقًا، وتكمن فكرة الشبكات العصبية في قدرتها على إنشاء صور جديدة وفريدة بعد معالجة كمية هائلة من بيانات التدريب.

ومع ذلك، تُظهر الدراسة الجديدة أن هذه الصور ليست دائمًا فريدة، وفي بعض الحالات، يمكن أن تقوم الشبكة العصبية بإعادة إنتاج صورة مطابقة تمامًا لصورة سابقة استخدمت في التدريب، وهذا يعني أن الشبكات العصبية قد تكشف عن المعلومات الخاصة دون قصد.

وتتحدى هذه الدراسة وجهات النظر القائلة إن نماذج الذكاء الاصطناعي المستخدمة في توليد الصور لا تحفظ بيانات التدريب الخاصة بها، وإن بيانات التدريب قد تظل خاصة إذا لم يُكشف عنها.

تقديم المزيد من البيانات

يمكن أن تكون نتائج أنظمة التعلم العميق مدهشة بالنسبة لغير المتخصصين، ويمكن أن يظنوا أنها سحرية، ولكن في الواقع، ليس هناك أي سحر في الأمر، فجميع الشبكات العصبية تستند في عملها إلى المبدأ نفسه، وهو التدريب باستخدام مجموعة كبيرة من البيانات، وتوصيفات دقيقة لكل صورة، على سبيل المثال: سلاسل من صور القطط والكلاب.

وبعد التدريب، تعرض الشبكة العصبية صورة جديدة ويُطلب منها تحديد هل هي لقطة أم كلب؟ ومن هذه النقطة المتواضعة، ينتقل مُطوّرو هذه النماذج إلى سيناريوهات أكثر تعقيدًا، فيقومون بإنشاء صورة لحيوان أليف غير موجود بالفعل باستخدام الخوارزمية التي دُربت على العديد من صور القطط. وتُجرى هذه التجارب ليس فقط باستخدام الصور، ولكن أيضًا بالنصوص ومقاطع الفيديو وحتى الصوت.

نقطة البداية لجميع الشبكات العصبية هي مجموعة بيانات التدريب، إذ لا تستطيع الشبكات العصبية إنشاء كائنات جديدة من العدم. على سبيل المثال، لإنشاء صورة لِقطةٍ، يجب على الخوارزمية دراسة آلاف الصور الفوتوغرافية أو الرسومات الحقيقية للقطط.

جهود كبيرة للحفاظ على سرية مجموعات البيانات

يُولي الباحثون في ورقتهم البحثية نماذج التعلم الآلي اهتمامًا خاصًا، ويعملون على النحو التالي: تشويه بيانات التدريب – وهي صور الأشخاص والسيارات والمنازل وما إلى ذلك – عن طريق إضافة تشويش، وبعد ذلك، تُدرب الشبكة العصبية على استعادة هذه الصور إلى حالتها الأصلية.

وتتيح هذه الطريقة إمكانية إنشاء صور ذات جودة مقبولة، لكن العيب المحتمل – بالمقارنة مع الخوارزميات في الشبكات التنافسية التوليدية، على سبيل المثال – هو ميلها الأكبر لتسريب البيانات. إذ يمكن استخراج البيانات الأصلية منها بثلاث طرق مختلفة على الأقل، وهي:

- استخدام استعلامات محددة لإجبار الشبكة العصبية على إخراج صورة مصدر محدد، وليس شيئًا فريدًا تم إنشاؤه بناءً على آلاف الصور.
- يمكن إعادة بناء الصورة الأصلية حتى لو توفر جزء منها فقط.
- من الممكن ببساطة تحديد إذا كانت صورة معينة مُضمنة في بيانات التدريب أم لا.
وفي كثير من الأحيان، تكون الشبكات العصبية كسولة، وبدلاً من إنتاج صورة جديدة، فإنها تنتج شيئًا من مجموعة التدريب إذا كان يحتوي على عدة نسخ مكررة من الصورة نفسها. إذا تكررت صورة في مجموعة التدريب أكثر من مئة مرة، فهناك فرصة كبيرة جدًا لتسريبها في شكلها شبه الأصلي.

ومع ذلك، أظهر الباحثون طرقًا لاسترداد صور التدريب التي ظهرت مرة واحدة فقط في المجموعة الأصلية، فمن بين 500 صورة اختبرها الباحثون، أعادت الخوارزمية بشكل عشوائي إنشاء ثلاثة منها.

مَن سرق من؟

في يناير 2023، رفع ثلاثة فنانين دعوى قضائية ضد منصات توليد الصور التي تستند في عملها إلى الذكاء الاصطناعي بسبب استخدام صورهم الموجودة عبر الإنترنت لتدريب نماذجها دون أي احترام لحقوق التأليف والنشر.

وتستطيع الشبكة العصبية بالفعل نسخ أسلوب فنان معين، ومن ثم تحرمه من الدخل. وتشير الورقة البحثية إلى أنه في بعض الحالات، تستطيع الخوارزميات، لأسباب مختلفة، التورط في الانتحال الصريح، وتوليد رسومات وصور فوتوغرافية وصور أخرى تكاد تكون متطابقة مع أعمال الأشخاص الحقيقيين.

لذلك قدم الباحثون توصيات لتعزيز خصوصية مجموعة التدريب الأصلية:

1- التخلص من التكرار في مجموعات التدريب.
2- إعادة معالجة صور التدريب، على سبيل المثال: عن طريق إضافة تشويش أو تغيير السطوع؛ ويجعل هذا تسريب البيانات أقل احتمالًا.
3- اختبار الخوارزمية باستخدام صور تدريبية خاصة، ثم التحقق من أنها لا تعيد إنتاجها بدقة دون قصد.

وكالات

الاحتلال يعترف بمصرع جندي إسرائيلي بنهر الليطاني جنوبي لبنان

. 3 شهداء وجرحى في غارة استهدفت مركبة مدنية قرب برج الوحدة بغزة

حزب الله يزف القائد العام للقسام ويتوعد الاحتلال بخاتمة "العز والنصر"

قيادي بحماس يكشف كواليس اتصالات الوسطاء السرية ويهدد بخيارات تقلب الطا...

"حماس" تكشف عن جولة انتخابية لاختيار رئيس الحركة

حماس تنعى القائد عز الدين الحداد.. وتستذكر دوره في معركة "طوفان الأقصى...

"حزب الله" يستهدف تجمعات الاحتلال في لبنان بمسيّرات انقضاضية

استعدادات لاحتمال مواجهة جديدة مع إيران

عشرات المستوطنين يقتحمون بلدة سلوان

تعرف على القادة العامّون لكتائب الشهيد عز الدين القسام

بوتين يزور الصين بعد أيام من مغادرة ترامب

مباحث التموين برفح تحرّر 6 محاضر ضبط بحق تجّار مخالفين

عائلة القائد عز الدين الحداد تودعه بكلمات مؤثرة

زامير: الحداد أحد المسؤولين الرئيسيين عن 7 أكتوبر

أمريكا تدرس طلباً إسرائيلياً لتحويل أموال المقاصة لـ"مجلس السلام" بغزة

الاحتلال يجبر مقدسيا على هدم منزله في جبل المكبر

وثيقة تكشف خطة إيرانية لإدارة مضيق هرمز عبر نظام التأمين

ارتقاء القائد العام لكتائب القسام "عز الدين الحداد" وعائلته في مجزرة ص...

الاحتلال يخطط لإقامة مكاتب ومرافق عسكرية على أنقاض مجمّع "أونروا" بالق...

"رويترز": واشنطن تدرس مطالبة إسرائيل بتخصيص أموال المقاصة لمجلس السلام...

احذروا..

هكذا تسرب منصات الذكاء الاصطناعي بياناتكم

الأكثر قراءة

"المطبخ العالمي" ينهي عقود آلاف العاملين ويقلص خدماته في قطاع غزة

قناة عربية: سلاح المقاومة يفجر مفاوضات المرحلة الثانية بشأن غزة

اعتراف إسرائيلي صريح بخسارة الحرب على كل الجبهات

طبول الحرب تعود..

استعدادات لاحتمال مواجهة جديدة مع إيران

ستظل بيد إيران إلى الأبد..

وثيقة تكشف خطة إيرانية لإدارة مضيق هرمز عبر نظام التأمين