التعلم العميق

الشبكات العصبية العميقة: من الخلية العصبية إلى المحوّلات (Transformers)

خلف كل محادثة مع مساعد ذكي، وكل صورة يولّدها الذكاء الاصطناعي، وكل سيارة ذاتية القيادة، تقف بنية رياضية واحدة استلهمها العلماء من الدماغ البشري قبل أكثر من سبعين عاماً: الشبكة العصبية الاصطناعية. في هذا المقال نتتبع رحلتها من فكرة بسيطة كادت تُدفن في الستينيات، إلى المحوّلات التي تشغّل النماذج اللغوية الكبيرة اليوم، بلغة مبسّطة لا تتطلب خلفية رياضية متقدمة.

الإلهام البيولوجي: ماذا أخذنا من الدماغ؟

يحتوي الدماغ البشري على نحو 86 مليار خلية عصبية، تستقبل كل منها إشارات من جاراتها عبر التشابكات، فإذا تجاوز مجموع الإشارات عتبة معينة «أطلقت» الخلية إشارتها الخاصة. هذه الفكرة البسيطة، استقبال ثم وزن ثم قرار، هي كل ما اقترضته الشبكات الاصطناعية من البيولوجيا. أما الباقي فرياضيات وهندسة خالصة، ولهذا فإن تشبيه الشبكات العصبية بالدماغ مفيد كاستعارة أولى لكنه مضلّل إذا أُخذ حرفياً.

البيرسبترون: الخلية الاصطناعية الأولى

في عام 1958 قدّم فرانك روزنبلات «البيرسبترون»: وحدة تستقبل مدخلات عددية، تضرب كلاً منها في وزن (Weight) يعبّر عن أهميته، تجمع النواتج وتضيف انحيازاً (Bias)، ثم تمرر المجموع عبر دالة تفعيل تقرر المخرج النهائي. التعلم هنا يعني ببساطة: تعديل الأوزان تدريجياً حتى تصبح مخرجات الشبكة قريبة من الإجابات الصحيحة.

لكن البيرسبترون المفرد عاجز عن تعلم العلاقات غير الخطية، وهو قصور وثّقه مارفين مينسكي عام 1969 فتسبب في «شتاء» طويل لهذا المجال. الحل جاء لاحقاً من فكرتين: تكديس الخلايا في طبقات متعددة، وخوارزمية الانتشار الخلفي (Backpropagation) التي تحسب مساهمة كل وزن في الخطأ النهائي وتعدّله في الاتجاه الذي يقلل الخطأ، مستندة إلى مبدأ رياضي يسمى الانحدار التدرّجي (Gradient Descent). تخيّلها كمن يهبط جبلاً في الضباب: يتحسس الميل عند قدميه ويخطو دائماً نحو الانحدار الأشد.

لماذا «العميق» في التعلم العميق؟

1طبقة المدخلات2طبقات خفية متدرجة3طبقة المخرجات
بنية الشبكة العصبية العميقة: كل طبقة تتعلم تمثيلاً أكثر تجريداً من سابقتها

العمق يشير إلى عدد الطبقات الخفية بين المدخلات والمخرجات. وسرّ قوته أن كل طبقة تتعلم تمثيلاً أكثر تجريداً من سابقتها: في شبكة تتعرف على الوجوه، تلتقط الطبقات الأولى حوافّ وتدرجات لونية، والوسطى تركّبها إلى عيون وأنوف، والأخيرة تجمعها في وجوه كاملة. هذا التعلم الهرمي للتمثيلات هو ما أغنانا عن هندسة الخصائص اليدوية المرهقة التي تحدثنا عنها في مقال التعلم الآلي.

ولم ينفجر المجال إلا حين اجتمعت ثلاثة عوامل حوالي 2012: بيانات ضخمة من الإنترنت، ومعالجات رسوميات (GPU) قادرة على آلاف العمليات المتوازية، وتحسينات خوارزمية في دوال التفعيل وتقنيات التنظيم.

البنى الأساسية: لكل نوع بيانات شبكته

الشبكات الالتفافية (CNN) لمعالجة الصور

بدلاً من ربط كل بكسل بكل خلية (وهو مكلف وغير منطقي)، تمرر الشبكات الالتفافية «مرشحات» صغيرة على الصورة تبحث عن أنماط محلية: حواف، زوايا، أنسجة. وتتدرج المرشحات في العمق لتكتشف أنماطاً أكثر تركيباً. هذه البنية تشغّل اليوم التعرف على الوجوه، وفحص جودة المنتجات في المصانع، وتحليل الصور الطبية.

الشبكات التكرارية (RNN) للبيانات المتسلسلة

صُممت للبيانات التي يهم فيها الترتيب كالنصوص والأصوات، إذ تحتفظ بـ«ذاكرة» تنتقل من خطوة إلى التالية. وطوّرت نسخ محسّنة منها مثل LSTM لمعالجة مشكلة نسيان السياقات البعيدة، وظلت سائدة في معالجة اللغة حتى 2017، لكنها بقيت بطيئة لأنها تعالج الكلمات واحدة تلو الأخرى.

ثورة المحوّلات: الانتباه هو كل ما تحتاجه

في 2017 نشر باحثون ورقة بعنوان «Attention Is All You Need» قدّمت بنية «المحوّل» (Transformer) التي غيّرت كل شيء. جوهرها آلية الانتباه الذاتي (Self-Attention): عند معالجة كل كلمة، تنظر الشبكة إلى جميع كلمات الجملة دفعة واحدة وتحسب «درجة صلة» بين كل زوج منها. في جملة «وضع الكتاب على الطاولة لأنه ثقيل»، تتعلم الآلية أن الضمير «ـه» يرتبط بـ«الكتاب» أكثر من «الطاولة».

هذا التصميم منح المحوّلات ميزتين حاسمتين: فهم السياقات الطويلة، وقابلية التوازي الكامل في المعالجة، ما سمح بتدريب نماذج هائلة على نصوص الإنترنت. ومنها وُلدت النماذج اللغوية الكبيرة (LLMs) التي تتدرب أولاً على مهمة بسيطة ظاهرياً، توقّع الكلمة التالية، فتكتسب في سبيلها معرفة لغوية وعالمية واسعة، ثم تُضبط لاحقاً لتتبع التعليمات وتتحاور بأمان. واللافت أن البنية نفسها امتدت خارج اللغة إلى الصور والصوت والفيديو والبروتينات.

مثال تطبيقي: شبكة لتصنيف صور الأشعة

لنفترض أن مستشفى يريد نظاماً يساعد أطباء الأشعة في فرز صور الصدر. الخطوات عملياً: جمع آلاف الصور المصنّفة من أطباء خبراء، ثم بدلاً من التدريب من الصفر نستخدم التعلم بالنقل (Transfer Learning): نأخذ شبكة التفافية مدرَّبة مسبقاً على ملايين الصور العامة، ونعيد تدريب طبقاتها الأخيرة فقط على صور الأشعة. بهذا نحصل على دقة عالية ببيانات وتكلفة أقل بكثير.

التحدي الحقيقي ليس الدقة وحدها بل قابلية التفسير: يحتاج الطبيب لمعرفة سبب القرار، فنستخدم تقنيات مثل خرائط الحرارة (Grad-CAM) التي تُظهر مناطق الصورة التي استند إليها النموذج، ليبقى القرار النهائي دائماً بيد الطبيب.

📌 دراسة حالة: DeepMind وطيّ البروتينات

ظلت مشكلة التنبؤ بالشكل ثلاثي الأبعاد للبروتين من تسلسله الكيميائي لغزاً علمياً لخمسين عاماً. في 2020 حقق نظام AlphaFold2، المبني على بنى انتباه شبيهة بالمحوّلات، دقة قاربت التجارب المخبرية، ثم أتاحت الشركة تنبؤات لمئات ملايين البروتينات للباحثين مجاناً، فتسارعت أبحاث الأدوية والإنزيمات حول العالم، ونال العمل جائزة نوبل في الكيمياء عام 2024. إنه مثال صارخ على أن الشبكات العصبية لم تعد أداة تقنية فحسب، بل أداة اكتشاف علمي.

حدود وتحديات يجب ألا نغفلها

💡 خلاصة: من بيرسبترون واحد إلى محوّلات بمليارات المعاملات، بقي المبدأ ثابتاً: أوزان تتعدّل لتقليل الخطأ. ما تغيّر هو الحجم والبنية والبيانات، وما زال أمام هذا المجال أسئلة كبرى في الكفاءة والتفسير والمسؤولية.
أتريد التعمق أكثر؟
كتاب «الشبكات العصبية ببساطة» يشرح هذه البنى خطوة بخطوة مع رسوم توضيحية وأمثلة برمجية.