الشبكات العصبية العميقة: من الخلية العصبية إلى المحوّلات

خلف كل محادثة مع مساعد ذكي، وكل صورة يولّدها الذكاء الاصطناعي، وكل سيارة ذاتية القيادة، تقف بنية رياضية واحدة استلهمها العلماء من الدماغ البشري قبل أكثر من سبعين عاماً: الشبكة العصبية الاصطناعية. في هذا المقال نتتبع رحلتها من فكرة بسيطة كادت تُدفن في الستينيات، إلى المحوّلات التي تشغّل النماذج اللغوية الكبيرة اليوم، بلغة مبسّطة لا تتطلب خلفية رياضية متقدمة.

الإلهام البيولوجي: ماذا أخذنا من الدماغ؟

يحتوي الدماغ البشري على نحو 86 مليار خلية عصبية، تستقبل كل منها إشارات من جاراتها عبر التشابكات، فإذا تجاوز مجموع الإشارات عتبة معينة «أطلقت» الخلية إشارتها الخاصة. هذه الفكرة البسيطة، استقبال ثم وزن ثم قرار، هي كل ما اقترضته الشبكات الاصطناعية من البيولوجيا. أما الباقي فرياضيات وهندسة خالصة، ولهذا فإن تشبيه الشبكات العصبية بالدماغ مفيد كاستعارة أولى لكنه مضلّل إذا أُخذ حرفياً.

البيرسبترون: الخلية الاصطناعية الأولى

في عام 1958 قدّم فرانك روزنبلات «البيرسبترون»: وحدة تستقبل مدخلات عددية، تضرب كلاً منها في وزن (Weight) يعبّر عن أهميته، تجمع النواتج وتضيف انحيازاً (Bias)، ثم تمرر المجموع عبر دالة تفعيل تقرر المخرج النهائي. التعلم هنا يعني ببساطة: تعديل الأوزان تدريجياً حتى تصبح مخرجات الشبكة قريبة من الإجابات الصحيحة.

لكن البيرسبترون المفرد عاجز عن تعلم العلاقات غير الخطية، وهو قصور وثّقه مارفين مينسكي عام 1969 فتسبب في «شتاء» طويل لهذا المجال. الحل جاء لاحقاً من فكرتين: تكديس الخلايا في طبقات متعددة، وخوارزمية الانتشار الخلفي (Backpropagation) التي تحسب مساهمة كل وزن في الخطأ النهائي وتعدّله في الاتجاه الذي يقلل الخطأ، مستندة إلى مبدأ رياضي يسمى الانحدار التدرّجي (Gradient Descent). تخيّلها كمن يهبط جبلاً في الضباب: يتحسس الميل عند قدميه ويخطو دائماً نحو الانحدار الأشد.

لماذا «العميق» في التعلم العميق؟

بنية الشبكة العصبية العميقة: كل طبقة تتعلم تمثيلاً أكثر تجريداً من سابقتها

العمق يشير إلى عدد الطبقات الخفية بين المدخلات والمخرجات. وسرّ قوته أن كل طبقة تتعلم تمثيلاً أكثر تجريداً من سابقتها: في شبكة تتعرف على الوجوه، تلتقط الطبقات الأولى حوافّ وتدرجات لونية، والوسطى تركّبها إلى عيون وأنوف، والأخيرة تجمعها في وجوه كاملة. هذا التعلم الهرمي للتمثيلات هو ما أغنانا عن هندسة الخصائص اليدوية المرهقة التي تحدثنا عنها في مقال التعلم الآلي.

ولم ينفجر المجال إلا حين اجتمعت ثلاثة عوامل حوالي 2012: بيانات ضخمة من الإنترنت، ومعالجات رسوميات (GPU) قادرة على آلاف العمليات المتوازية، وتحسينات خوارزمية في دوال التفعيل وتقنيات التنظيم.

البنى الأساسية: لكل نوع بيانات شبكته

الشبكات الالتفافية (CNN) لمعالجة الصور

بدلاً من ربط كل بكسل بكل خلية (وهو مكلف وغير منطقي)، تمرر الشبكات الالتفافية «مرشحات» صغيرة على الصورة تبحث عن أنماط محلية: حواف، زوايا، أنسجة. وتتدرج المرشحات في العمق لتكتشف أنماطاً أكثر تركيباً. هذه البنية تشغّل اليوم التعرف على الوجوه، وفحص جودة المنتجات في المصانع، وتحليل الصور الطبية.

الشبكات التكرارية (RNN) للبيانات المتسلسلة

صُممت للبيانات التي يهم فيها الترتيب كالنصوص والأصوات، إذ تحتفظ بـ«ذاكرة» تنتقل من خطوة إلى التالية. وطوّرت نسخ محسّنة منها مثل LSTM لمعالجة مشكلة نسيان السياقات البعيدة، وظلت سائدة في معالجة اللغة حتى 2017، لكنها بقيت بطيئة لأنها تعالج الكلمات واحدة تلو الأخرى.

ثورة المحوّلات: الانتباه هو كل ما تحتاجه

في 2017 نشر باحثون ورقة بعنوان «Attention Is All You Need» قدّمت بنية «المحوّل» (Transformer) التي غيّرت كل شيء. جوهرها آلية الانتباه الذاتي (Self-Attention): عند معالجة كل كلمة، تنظر الشبكة إلى جميع كلمات الجملة دفعة واحدة وتحسب «درجة صلة» بين كل زوج منها. في جملة «وضع الكتاب على الطاولة لأنه ثقيل»، تتعلم الآلية أن الضمير «ـه» يرتبط بـ«الكتاب» أكثر من «الطاولة».

هذا التصميم منح المحوّلات ميزتين حاسمتين: فهم السياقات الطويلة، وقابلية التوازي الكامل في المعالجة، ما سمح بتدريب نماذج هائلة على نصوص الإنترنت. ومنها وُلدت النماذج اللغوية الكبيرة (LLMs) التي تتدرب أولاً على مهمة بسيطة ظاهرياً، توقّع الكلمة التالية، فتكتسب في سبيلها معرفة لغوية وعالمية واسعة، ثم تُضبط لاحقاً لتتبع التعليمات وتتحاور بأمان. واللافت أن البنية نفسها امتدت خارج اللغة إلى الصور والصوت والفيديو والبروتينات.

مثال تطبيقي: شبكة لتصنيف صور الأشعة

لنفترض أن مستشفى يريد نظاماً يساعد أطباء الأشعة في فرز صور الصدر. الخطوات عملياً: جمع آلاف الصور المصنّفة من أطباء خبراء، ثم بدلاً من التدريب من الصفر نستخدم التعلم بالنقل (Transfer Learning): نأخذ شبكة التفافية مدرَّبة مسبقاً على ملايين الصور العامة، ونعيد تدريب طبقاتها الأخيرة فقط على صور الأشعة. بهذا نحصل على دقة عالية ببيانات وتكلفة أقل بكثير.

التحدي الحقيقي ليس الدقة وحدها بل قابلية التفسير: يحتاج الطبيب لمعرفة سبب القرار، فنستخدم تقنيات مثل خرائط الحرارة (Grad-CAM) التي تُظهر مناطق الصورة التي استند إليها النموذج، ليبقى القرار النهائي دائماً بيد الطبيب.

📌 دراسة حالة: DeepMind وطيّ البروتينات

ظلت مشكلة التنبؤ بالشكل ثلاثي الأبعاد للبروتين من تسلسله الكيميائي لغزاً علمياً لخمسين عاماً. في 2020 حقق نظام AlphaFold2، المبني على بنى انتباه شبيهة بالمحوّلات، دقة قاربت التجارب المخبرية، ثم أتاحت الشركة تنبؤات لمئات ملايين البروتينات للباحثين مجاناً، فتسارعت أبحاث الأدوية والإنزيمات حول العالم، ونال العمل جائزة نوبل في الكيمياء عام 2024. إنه مثال صارخ على أن الشبكات العصبية لم تعد أداة تقنية فحسب، بل أداة اكتشاف علمي.

من النظرية إلى جيبك: أين تعمل هذه الشبكات الآن؟

كل بنية ذكرناها ليست مفهوماً أكاديمياً، بل تشغّل خدمات تستخدمها يومياً. هذا الربط يثبّت الفهم:

الشبكات الالتفافية (CNN): هي التي تتعرّف على وجهك لفتح هاتفك، وتصنّف صورك تلقائياً في الألبومات، وتساعد السيارات على رؤية الطريق. كل مهمة "رؤية" تقريباً تقف خلفها هذه البنية.
الشبكات التكرارية ونماذج التسلسل: كانت وراء الترجمة الآلية وتحويل الكلام إلى نص، قبل أن تتفوق عليها المحوّلات في أغلب المهام.
المحوّلات (Transformers): هي العمود الفقري لكل مساعدات المحادثة الحديثة التي تكتب وتلخّص وتبرمج. حين تتحدث إلى نموذج لغوي، فأنت تتحدث إلى محوّل ضخم.
الشبكات التوليدية: تقف خلف توليد الصور والفيديو من النص، وخلف الأصوات الاصطناعية الواقعية.

المغزى: حين تفهم أي بنية تناسب أي نوع بيانات، تصبح قادراً على تقدير ما يمكن للذكاء الاصطناعي فعله في مجالك — وما لا يستطيع. هذا الوعي البنيوي هو الفرق بين من ينبهر بالتقنية ومن يوظّفها بذكاء.

حدود وتحديات يجب ألا نغفلها

الجوع إلى البيانات والطاقة: تدريب النماذج الكبيرة يتطلب موارد حوسبية هائلة وتكاليف بيئية ومالية متصاعدة.
الهلوسة: قد تنتج النماذج اللغوية معلومات خاطئة بثقة تامة، لأنها تتعلم أنماط اللغة لا «الحقيقة».
الانحياز: ترث النماذج تحيزات بياناتها، فإن دُرّبت على بيانات منحازة أنتجت قرارات منحازة.
الصندوق الأسود: تفسير قرارات شبكة بمليارات الأوزان لا يزال تحدياً بحثياً مفتوحاً، وحقل «قابلية التفسير» من أنشط مجالات البحث اليوم.

💡 خلاصة: من بيرسبترون واحد إلى محوّلات بمليارات المعاملات، بقي المبدأ ثابتاً: أوزان تتعدّل لتقليل الخطأ. ما تغيّر هو الحجم والبنية والبيانات، وما زال أمام هذا المجال أسئلة كبرى في الكفاءة والتفسير والمسؤولية.

أتريد التعمق أكثر؟
كتاب «الشبكات العصبية ببساطة» يشرح هذه البنى خطوة بخطوة مع رسوم توضيحية وأمثلة برمجية.

الإلهام البيولوجي: ماذا أخذنا من الدماغ؟

البيرسبترون: الخلية الاصطناعية الأولى

لماذا «العميق» في التعلم العميق؟

البنى الأساسية: لكل نوع بيانات شبكته

الشبكات الالتفافية (CNN) لمعالجة الصور

الشبكات التكرارية (RNN) للبيانات المتسلسلة

ثورة المحوّلات: الانتباه هو كل ما تحتاجه

مثال تطبيقي: شبكة لتصنيف صور الأشعة

📌 دراسة حالة: DeepMind وطيّ البروتينات

من النظرية إلى جيبك: أين تعمل هذه الشبكات الآن؟

حدود وتحديات يجب ألا نغفلها

مقالات ذات صلة