شعار قسم مدونات

مرايا المجتمع: عن التحيز في أنظمة الذكاء الاصطناعي

يتطلب تدريب تطبيقات الذكاء الاصطناعي كميات كبيرة من البيانات (شترستوك)

لاحظ بعض مستخدمي تطبيقات الذكاء الاصطناعي المنتشرة حديثا نوعا من الانحياز والتمييز العنصري فيما تنتجه. فهل تحمل أنظمة الذكاء الاصطناعي حقا بين طياتها تحيزات مخفية؟ ومن أين تأتي؟ وكيف نتوقى آثارها؟

ارتبط اسم الذكاء الاصطناعي بالأنظمة التوليدية التي تنتج صورا ونصوصا وانتشر استعمالها مؤخرا بين الناس لسهولة استخدامها وفوائدها العملية. وأذكر هنا أن أنظمة الذكاء الاصطناعي منتشرة في مجالات عديدة سبقت هذه الأنظمة التوليدية وتتداخل في استخداماتنا اليومية مثل محركات البحث (جوجل) ومنصات التواصل الاجتماعي وتطبيقات الـ GPS وغيرها. ويكثر في المجتمعات الديمقراطية الغربية انتقاد مظاهر التحيز في هذه الأنظمة، حيث أظهرت العديد من الدراسات وجود تحيز في نتائج أنظمة الذكاء الاصطناعي مثل ارتباط لون البشرة بالمهنة ومستوى الدخل، فهي تتنبأ بنسبة مرتفعة أن الرجال من أصحاب البشرة البيضاء ذوي دخل أعلى ويعملون بمناصب علمية أو قيادية، بينما يكون صاحب البشرة السمراء عاملا في مطعم وجبات سريعة، وتكون المرأة مدرسة أو ربة منزل.

تتسبب عوامل عدة في التحيز المشاهد ضمن منظومة الذكاء الاصطناعي منها أسباب تتعلق بطريقة تصميم النظام والخوارزمية العاملة ضمنه، ولكن تعد البيانات التي تستخدم في تدريب الخوارزمية من أهم العناصر المؤثرة في ظهور مثل هذه التحيزات. وأذكر هنا بمثال الطفل الذي طرحته في مدونة سابقة والذي يقرب بشكل مبسط طريقة إعداد نماذج الذكاء الاصطناعي، حيث يتشرب الطفل خلال نموه اللغة والمفاهيم الاجتماعية من الوسط المحيط به ثم يعممها على مواقف جديدة في حياته. فلو تربى هذا الطفل في بيئة منغلقة فيها كل الأشخاص من عرق معين يعملون بحرفة ما، فإنه سيستحضر هذه الأنماط في مواقف جديدة في حياته، حتى يطلع على نماذج جديدة مخالفة لما شاهد تغير له هذه النظرة، وهذا هو حال أنظمة الذكاء الاصطناعي مع البيانات المستخدمة في التدريب.

توجد شركات كل اهتمامها جمع المعلومات والبيانات وبيعها، وأبدع بعضها في طرق الجمع بأساليب مباشرة وأخرى تخفى على المستخدم مستغلين وجود ثغرات في قوانين حماية الخصوصية أو غيابها تماما.

من أين تأتي البيانات؟

البيانات ضمن هذا السياق هي أي معلومة مرتبطة بالمستخدم أو نشاطه على الشبكة أو خارجها. مثل الاسم والعمر والعرق واللغة والمهنة والموقع الجغرافي والاهتمامات والمشتريات والكتابات، وتشمل النصوص والصور والأصوات. ويتطلب تطوير خوارزميات الذكاء الاصطناعي كميات كبيرة من البيانات التي تحمل في طياتها بشكل طبيعي الانحيازات الموجودة في المجتمع. وقد تكون هذه الانحيازات أحيانا ناتجة عن ظروف جمع البيانات فمثلا قد لا تشمل العينة المسنين أو الذين لا يتحدثون اللغة الإنكليزية أو قد يكون عددهم قليلا جدا مما يضعف أثرهم على النتيجة.

وتوجد شركات كل اهتمامها جمع المعلومات والبيانات وبيعها، وأبدع بعضها في طرق الجمع بأساليب مباشرة وأخرى تخفى على المستخدم مستغلين وجود ثغرات في قوانين حماية الخصوصية أو غيابها تماما.

لو كان المجتمع يميز ضد المهاجرين أو العمالة الوافدة فهل من المستغرب أن يحمل تطبيق الذكاء الاصطناعي المبني على بيانات هذا المجتمع أثرا من هذا التحيز ينعكس في مخرجاته؟

بين الانحياز والعدل

يبقى السؤال الجوهري هنا هو ماهي معايير الانحياز والعدل، وهل تختلف من بيئة لأخرى ومن هو المسؤول عن مراعاتها؟ فلو أن شركة عالمية طورت نماذجها في بلد يعتقد بشكل جازم بنمط معين من الحرية الفردية وأرادت هذه الشركة استخدام منتجها في مجتمع محافظ لا تنطبق فيه نفس معايير الحرية هذه، فهل نعد فشل النموذج على محاكاة المجتمع المحافظ انحيازا؟

ولو كان المجتمع يميز ضد المهاجرين أو العمالة الوافدة فهل من المستغرب أن يحمل تطبيق الذكاء الاصطناعي المبني على بيانات هذا المجتمع أثرا من هذا التحيز ينعكس في مخرجاته؟ وهل يتوقع من هذا التطبيق أن يغير من بنيته الداخلية لينتج صورة عن مجتمع مثالي يتساوى فيه المقيم مع المهاجر والأبيض مع الأسود؟ وهل هذا ممكن دون الإخلال بالمصداقية؟ لنأخذ على ذلك مثالا ما حدث حين أطلقت شركة جوجل مؤخرا تطبيقا للذكاء الاصطناعي التوليدي أسمته Gemini قادر على توليد الصور عند تلقينه بنص. ثم تبدى عند الاستخدام أن التطبيق عنده نزعة مبالغ فيها على توليد صور للأقليات العرقية، حتى في سياقات غير واقعية (بابا الفاتيكان كامرأة أو رجل أفريقي). وما إن ذاعت الأمثلة على مواقع التواصل حتى اعتذرت الشركة وأوقفت هذه الخاصية حتى يتم إصلاحها. ويبدو أن هذه النتائج المحرجة كانت نتيجة رغبة المطورين في تقويم التحيز التي تعاني منها عادة هذه الأنظمة ولكن مساعيهم للإصلاح لم تكن مدروسة بشكل كاف وخرجت عن السيطرة.

استطاع باحثون استرجاع معلومات خاصة بشكل حرفي مستخدمة في تدريب الخوارزمية مثل أسماء وعناوين وشاهدنا في بعض الحالات صور ونصوص أنتجها فنانون وكتاب تقدم لمستخدمي تطبيقات الذكاء الاصطناعي على أنها من إنتاج التطبيق

الغث والسمين والمسموم

يتطلب تدريب تطبيقات الذكاء الاصطناعي كميات كبيرة من البيانات (استخدم لتدريب احدى نسخ تشات جي بي تي حوالي ٣٠٠ مليار كلمة!). فمن الطبيعي أن نسأل من أين حصلت الشركة على هذا الكم من البيانات، علما أن جودة المنتج مرتبطة بجودة البيانات المستخدمة. يتم غالبا جمع هذا الكم الهائل من المعلومات بشكل أتوماتيكي من مصادر مفتوحة مثل ويكيبيديا وغير مفتوحة كالكتب والمقالات والصور ذات حقوق الملكية. ونتج عن هذا تبعات قانونية تتعلق بحقوق الملكية وأخرى تتعلق بتسريب معلومات خاصة.

فقد استطاع باحثون استرجاع معلومات خاصة بشكل حرفي مستخدمة في تدريب الخوارزمية مثل أسماء وعناوين وشاهدنا في بعض الحالات صور ونصوص أنتجها فنانون وكتاب تقدم لمستخدمي تطبيقات الذكاء الاصطناعي على أنها من إنتاج التطبيق، وتبين لاحقا أن هذه المواد استخدمت في تدريب الخوارزمية. وأدى هذا لرفع دعاوى على شركات مثل Open AI ومايكروسوفت من قبل صحف وكتاب بتهمة الاستفادة من المواد المنشورة بدون إذن أو تعويضات مالية، ويبدو أن هذه الضغوط دفعت الشركة لتوقيع اتفاقيات مع بعض دور النشر.

وللمساعدة في تحضير البيانات المستخدمة تستعين بعض الشركات باليد العاملة قليلة التكلفة في البلاد النامية، لتقوم بشكل يدوي بوضع وسم أو تصنيف البيانات حسب الحاجة ومن ضمن مهامهم وسم البيانات التي تحتوي على معلومات خصوصية أو مواد مخلة. وكشفت مجموعات حقوق الإنسان عن ظروف عمل صعبة تتعرض لها هذه العمالة تشمل ساعات عمل طويلة بأجور منخفضة ،إضافة إلى معاناة نفسية بسبب تعرضهم لمحتوى غير أخلاقي يتضمن العنف ومواد مخلة ضمن البيانات التي يعملون على وسمها.

معظم الشركات ستستمر بإهمال هذه المراحل لتقليل التكلفة ولتسريع عملية الإنتاج ما لم يتوفر رادع قانوني يضمن مراعاة هذه النواحي الأخلاقية.

ضرورة الشفافية

تحمل تطبيقات الذكاء الاصطناعي في طياتها انعكاسا لقيم من يطورها، والمجتمعات التي تبنى من أجلها بحلوها ومرها فلا مفر من وجود شيء من التحيز في نتاجها. ويتطلب التخلص منه وعيا من الشركات المطورة بواقع المستخدم وكيف تؤثر هذه التطبيقات على حياته. وفي حين يركز المطورون معظم جهودهم على النواحي التقنية والبرمجية، فلا بد من وجود معايير تشجعهم وتفرض عليهم العمل على النواحي الأخلاقية لتضمن تقليل أثر التحيز في منتجاتهم. منها تشجيع بناء منتجات محلية تناسب قيم المجتمع، والحرص على الشفافية في وصف البيانات المستخدمة في التدريب ومصادرها ومساحات الانحياز فيها، ولابد أيضا من العمل على توفير وسائل لشرح النتائج التي تصدر عن الذكاء الاصطناعي والعوامل التي تتسبب بمخرجاتها، وأخيرا فإن التفحص المستمر للنتائج يضمن عدم شرود المنظومة عن وجهتها، مع تغير المكان والزمان. ولا استغرب -في مجال مثل التكنولوجيا الذي يمتاز بسرعة كبيرة في الإنتاج ومنافسة محمومة- أن معظم الشركات ستستمر بإهمال هذه المراحل لتقليل التكلفة ولتسريع عملية الإنتاج ما لم يتوفر رادع قانوني يضمن مراعاة هذه النواحي الأخلاقية.

الآراء الواردة في هذا المقال هي آراء الكاتب ولا تعكس بالضرورة الموقف التحريري لقناة الجزيرة.