أحدث الخوارزميات في الذكاء الاصطناعي (2023 – الآن)

شهدت السنوات الأخيرة تطوّرًا ملحوظًا في خوارزميات الذكاء الاصطناعي، حيث ظهرت نماذج ومعماريات جديدة تتحدى نموذج الـTransformer وتقنيات التعلم العميق التقليدية. فمثلًا، ظهر نموذج Mamba المبني على مفاهيم نماذج الفضاء الحلي (State Space Models) كبديل تنافسي لمعمارية الـTransformer. كما طُوِّر نموذج RWKV، وهو شبكة عصبية عودية (RNN) جديدة تعمل بتعقيد زمني خطي وتجمع مزايا التدريب الموازٍ لـTransformers والاستدلال الفعال لـRNNs. وبالإضافة إلى ذلك، يبرز نهج Mixture of Experts (MoE) كآلية لتوسيع سعة النماذج بشكل كبير مع إبقاء التكلفة الحسابية مقبولة. وفي مجال رؤية الحاسوب، قدّم فريق Meta نموذج Segment Anything (SAM) كأساس لتقسيم الصور بطريقة ذاتية قابلة للتوجيه (promptable) مع قدرة تعميم صفري لبيئات جديدة. وأخيرًا، في التعلم المعزز، طُوِّرت خوارزمية DreamerV3 العامة المبنية على «نموذج للعالم» (world model) والتي تفوقت على أساليب متخصصة في أكثر من 150 مهمة متنوعة. سنستعرض فيما يلي كل خوارزمية بالتفصيل من حيث الوصف، وآلية العمل، ونقاط القوة والضعف، ودراسة حالة تطبيق، والتحديات الحالية.

خوارزمية Mamba

الوصف: هو نموذج شبكة عصبية مشتق من نماذج الفضاء الحلي (SSM)، مُصمم لنمذجة التسلسلات مثل النصوص أو الإشارات. يُعَدّ Mamba أول بديل معماري فعّال لنموذج الـTransformer في مهام نمذجة اللغة، حيث أظهر أداءً يضاهي Transformers بحجم مماثل مع تقليل كبير في زمن الاستدلال واستهلاك الذاكرة.
آلية عملها: يعتمد Mamba على «آلية اختيار مدخلات» (Selection Mechanism) داخل طبقات نموذج الفضاء الحلي. بمعنى آخر، يقوم ببارامترية (Parameterize) معاملات النموذج استنادًا إلى بيانات المدخلات الحالية، فيُفَعِّل فقط المعلومات ذات الصلة ويحتفظ بها بشكل مستمر. تتيح هذه الآلية التجاوب مع المدخلات بطريقة ديناميكية بدلاً من معالجة كل الرموز دائمًا. يتم تنفيذ النموذج باستخدام خوارزمية محسّنة للأجهزة الحاسوبية (Hardware-aware algorithm) تتجنب تخزين كل الحالات الوسيطة، مما يجعل التدريب والتطبيق (استدلالًا) يعتمد على زمن خطي بالنسبة لطول التسلسل.
ما يميزها: يتميّز Mamba بأنه نموذج مُتسلسل بالكامل (Recurrent) مع تعقيد زمني خطي في كل من التدريب والاستدلال. فقد أثبتت التجارب أن Mamba يُحافظ على جودة عالية على البيانات ذات كثافة معلوماتية مثل اللغة والأحماض النووية مع زمن استدلال ثابت لكل خطوة (بدون الحاجة لذاكرة KV مطلقة للرموز السابقة). فعلى سبيل المثال، حقّق Mamba-3B (بنفس حجم 3 مليار معامل) جودة نماذج Transformers حجم 6 مليارات، مع زيادة بمقدار 5 أضعاف في سرعة توليد النص. وبهذه الفعالية، يمكن تشغيل Mamba على سياقات طويلة جدًا (حتى مليون رمز) بكفاءة أفضل من Transformer.
دراسة حالة: اعتمدت بعض المشاريع الحديثة Mamba في تصميم نماذج حقيقية. فقد أطلقت شركة Mistral AI نموذج Codestral Mamba المُتخصص في توليد الكود وهو نموذج نقيّ بنية Mamba بالكامل. كما أعلنت شركات أخرى مثل IBM عن نماذج هجينة (Mamba + Transformer)، مثل الموديل IBM Granite 4.0 وسلسلة Jamba من AI2I، التي تجمع بين طبقات Attention وطبقات نماذج الحالة. هذه الأمثلة توضح استخدام Mamba في تطبيقات العالم الواقعي كنواة عامة للنماذج الضخمة.
التحديات: على الرغم من الأداء الواعد، فإن Mamba لا يزال حديث العهد مقارنة بـTransformers؛ فيتطلّب ضبطًا دقيقًا للحواشي البرمجية (hyperparameters) وخوارزميات خاصة بالتسريع على العتاد (GPU). كما أن دمج نماذج الحالة مع مكونات أخرى (مثل أنواع جديدة من الـAttention) قد يؤدي لتعقيد إضافي. علاوة على ذلك، تحتاج البنى القائمة على SSM إلى مزيد من البحث لفهم سلوكها التفسيري وحساسية المعاملات في سيناريوهات متنوعة.

مزج الخبرة (Mixture of Experts – MoE)

الوصف: هو إطار معماري يوزّع الشبكة العصبية إلى مجموعة من الشبكات الفرعية (الخبراء) المتخصصة، بالإضافة إلى شبكة بوّابات (Gating) تقوم بتوجيه كل مدخل إلى واحد أو عدة خبراء. الفكرة الأساسية هي أن تُنشط فقط الخبراء المناسبين لكل مدخل، مما يسمح بزيادة كبيرة في عدد المعاملات دون زيادة كبيرة في التكلفة الحسابية. لقد برزت MoE في النماذج اللغوية الكبيرة كآلية فعّالة لتوسيع سعة النموذج مع إبقاء الحمل الحسابي تحت السيطرة.
آلية عملها: عادةً ما يختار نظام التحويل (Gating) في طبقة MoE أفضل k خبراء (top-k routing) لتحليل كل رمز أو مدخل. على سبيل المثال، قد يحتوي النموذج على N خبراء وزن كل منهم أجزاء صغيرة من المعاملات، ويقوم الـGating بتقييم ملاءمة كل خبير للمدخل ثم يجمع نواتج أفضل k خبراء. يؤدي هذا الاختيار إلى استخدام جزء صغير من الشبكة لكل عملية حسابية، مُقلِّلاً من الاستهلاك الحاسوبي. هذه الآلية تضمن استغلال الخوارزميات الفرعية المتخصصة (مثل فهم أنواع مختلفة من الأنماط) دون الحاجة لتشغيل كامل الشبكة في كل مرة.
ما يميزها: تكمن قوة MoE في إمكانية زيادة هائلة بالسعة النموذجية دون زيادة مماثلة في التكلفة الحاسوبية. فقد أظهرت الدراسات أن إضافة المزيد من الخبراء يعزز أداء النموذج بشدة، خصوصًا مع تسلسل التعلم، دون الحاجة إلى مضاعفة الوقت الحسابي. ولكن من التحديات المعروفة مشكلة التوازن بين الخبراء (load balancing)، حيث قد تميل بوابة الـGating إلى تفعيل عدد قليل من الخبراء باستمرار، مما يجعل بعض الخبراء مُستهلكين بينما يظل آخرون خاملاً. هذا الانحياز يدفع الخبراء المفضَّلين ليأخذوا كل التدريب، ما يؤدي إلى فقدان فعالية الشبكة الكلية. كما يتطلب تصميم بوّابات فعّالة وموزّنة (مثل إضافة قيود تنظيمية) للحفاظ على توزيع التدريب بين الخبراء بشكل عادل.
دراسة حالة: استخدمت شركات وأنظمة كبيرة MoE بنجاح. على سبيل المثال، نموذج Mixtral-8×7B الصادر عن Mistral AI هو نموذج لغوي مفتوح المصدر يعتمد بنية MoE: يتألف من 8 خبراء كلٌّ بحوالي 7 مليارات معامل، ويختار بوّابة الموديل أفضل خبيرين على كل خطوة. وقد تبنّت هذه الفكرة أيضًا نماذج تجارية أخرى، مثل Grok-1 من xAI ونماذج DBRX وDeepSeek-V2، التي وظّفت MoE لتوسيع حجمها بفاعلية. في مجال التعلم المعزز، وجد الباحثون أيضًا أن MoE يحسّن أداء الوكلاء؛ حيث أظهرت دراسة حديثة أن إضافة طبقات MoE إلى شبكات تعلم معزّز زادت من قدرات التعلم خاصة في المهام متعددة الأهداف.
التحديات: من أصعب تحديات MoE هو توازن الحمل والتدريب؛ إذ تتطلب خوارزمية التوجيه والمعاملات (مثل ضمّ خسارة تنظيمية أو توزيع بيانات مناسب) لتحقيق استغلال متوازن للخبراء. كما أن البنى الواسعة بمعاملات ضخمة تحتاج إلى بيئة حوسبية متوازية مخصّصة (على سبيل المثال، تقسيم الخبراء عبر أجهزة متعددة) مما يزيد من التعقيد الهندسي والبرمجي. إضافة إلى ذلك، فإن تفسير مخرجات النموذج يصبح أصعب لأنه يعتمد على العديد من الخبراء المتخصصين، ويزداد الأمر تعقيدًا مع كبر حجم النموذج.رابط الورقة العلمية

خوارزمية RWKV

الوصف: هو نموذج شبكة عصبية عودية جديد (يسمى Receptance Weighted Key Value) يمثل محاولة لإعادة إحياء أسلوب الـRNN في عصر Transformers. صُمّم RWKV ليمزج بين تدريب موازي كـTransformer واستدلال فعّال كـRNN، فيبقى التعقيد الحسابي خلال الاستدلال ثابتًا بغض النظر عن طول السلسلة. حقّقت نسخ RWKV المصمّمة (حتى 14 مليار معامل) أداءً يضاهي أداء Transformers المماثلة الحجم في مهام معالجة اللغة.
آلية عملها: يتبنّى RWKV آلية انتباه خطي (Linear Attention) تُلغي الحاجة لحفظ مفتاح/قيمة لكل رمز سابق. فبينما يشبه التدريب بنية Transformer مجازيًّا، يُمكن التعبير عنه على شكل حلقة RNN أثناء الاستدلال. وبهذا الشكل، يمكن معالجته موازياً أثناء التدريب وبتسلسل (recurrent) خلال توليد النص. ينتج عن هذا نهج خوارزمية ذات تعقيد زمني خطي للتدريب وتعقيد ثابت للزمن لكل خطوة استدلال، مما يسمح بتسلسل سياقات طويلة جدًا دون ازدياد كبير في التكاليف الحاسوبية.
ما يميزها: يتميز RWKV بأنه يحقق أداءً عالياً مماثلاً لـTransformers مع زمن استدلال وكفاءة أفضل في الذاكرة. في التجارب، تبين أن أكبر نموذج RWKV (14 مليار معامل) هو أكبر نموذج RNN مكثف حتى الآن، وقد حقق أداءً يُوازي أداء Transformers بحجم مماثل. كما أن النموذج يجمع بين تدريب موازي (للتغلب على مشاكل RNN التقليدية مثل مشاكل تلاشي التدرج) واستدلال سريع بخطية زمنية، مما يجعله جديرًا بالاستخدام في تطبيقات التسلسل طويلة المدى.
دراسة حالة: استُخدم RWKV في تطبيقات معالجة السلاسل الزمنية. فمثلاً قدّم باحثون نموذج RWKV-TS (2024) للتنبؤ بالسلاسل الزمنية، حيث أظهر هذا النموذج أداءً تنافس نموذج Transformer أو CNN المتخصص في التنبؤ بالبيانات الزمنية، مع زمن تنفيذ أقل واستهلاك ذاكرة أقل بشكل ملحوظ. هذا يبرهن على قدرة RWKV في تحقيق توازن بين الدقة والكفاءة في مهام تتطلب معالجة متسلسلة طويلة.
التحديات: على الرغم من ميزاته، فإن بنية RWKV ما تزال جديدة وموضوع أبحاث. فهي تعتمد على تصميم RNN قد يعاني من مشاكل التلاشي التدريجي للتدرجات في سياقات أكثر تعقيدًا، وبالتالي تتطلب حيلًا خاصة (مثل التطبيع القنوي أو الاستخدام الذكي لوحدات الذاكرة) لضمان استقرار التدريب. كذلك، لم يُنتشر RWKV بعد بشكل واسع في الأدوات البرمجية التجارية مقارنة بـTransformers، مما يعني أن دعم التقنيات المساعدة (مثل التخزين الجزئي) لا زال في بداياته. وأخيرًا، قد تحتاج تطبيقات محددة إلى ضبط نموذج RWKV بعناية للتنافس مع الحلول القائمة.
قراءة الورقة

خوارزمية SAM (Segment Anything)

الوصف: هو نموذج رؤية حاسوبية أساسي صُمّم للتقسيم العام القابل للتوجيه (promptable segmentation). قام فريق Meta ببناء SAM بالتدريب على أكبر مجموعة بيانات تقسيم حتى الآن، تحتوي على أكثر من مليار قناع (mask) على 11 مليون صورة مختلفة. تم تصميم النموذج ليكون قابلاً للتوجيه بإدخالات بسيطة (نقطة على الصورة، أو مربع حول كائن، أو حتى وصف نصي أولي)، بحيث ينتج قناعًا يدل على الجزء المطلوب تقسيمه. وقد أظهر النموذج قدرة تعميم صفري قوية؛ حيث تفوّق في بعض الاختبارات على نماذج مدربة بالكامل سابقًا.
آلية عملها: بنيار SAM مقسم إلى ثلاثة أجزاء رئيسية: (1) مشفّر صور قوي (عادة يعتمد على ViT أو تقنيات مماثلة) ينتج تمثيلًا عامًّا للصورة، (2) مشفّر طلبات (Prompt Encoder) يخزن معلومات حول المؤشر أو المربع أو النص الذي يحدّد ما يراد تقسيمه، و(3) مُفسّر أقنعة (Mask Decoder) خفيف يجمع بين معلومات الصورة والطلب ليولّد القناع النهائي بسرعة. مثالياً، يمكن إعادة استخدام تمثيل الصورة مع طلبات مختلفة دون الحاجة لحساب التمثيل مرة أخرى، مما يجعل استجابة النموذج فورية تقريبًا (حوالي 50 مللي ثانية) حتى في متصفح ويب بسيط.
ما يميزها: يتميز SAM بقدرات تعميم عالية للمهام المتنوعة بفضل تدريبه على بيانات كثيرة ومختلفة. فقد برهن أنه قادر على أداء تنافسي أو حتى أفضل من نماذج متخصصة في العديد من مهام التقسيم دون تعديل إضافي. ومع ذلك، ظهر أنه ليس الخيار الأفضل دائمًا في كل المجالات؛ فمثلاً، في المجال الطبي ظهرت نماذج متخصصة (مثل MedSAM) تفوق أداء SAM الأصلي في تقسيم أنواع معينة من الصور الطبية. وهذا يوضح أن قدرة التعميم العامة قد تحتاج إلى تحسينات فنية أو تخصصية عند التطبيق في بيئات حساسة.
دراسة حالة: تم تطبيق نموذج SAM في مجالات عملية متنوعة. على سبيل المثال، في الطب اقترح الباحثون MedSAM (نسخة مخصصة من SAM) لتجزئة صور طبية متعددة، وكانت نتائج MedSAM أفضل من SAM الأصلي والنماذج المتخصصة المعروفة (U-Net وDeepLabV3+) في معظم المهام الداخلية والخارجية. فقد احتل MedSAM المرتبة الأولى في غالبية المهام المتنوعة، بينما سجل SAM الأصلي أداءً أضعف نسبياً. تعكس هذه الدراسة الواقعية قدرة SAM كوحدة أساسية قوية، كما تسلط الضوء على أهمية التخصيص أو التحسين في تطبيقات محددة.
التحديات: يواجه SAM تحديات متعلقة بحجم البيانات والنموذج الضخم. فالاعتماد على مليار قناع يتطلب موارد ضخمة لتجميع وتدريب النموذج. كذلك، فإن التوجيه الصحيح (prompt engineering) لا يزال خطوة مهمة للحصول على قناع دقيق، ومن الصعب أحيانًا توليد الأقنعة الصحيحة عند حدود معقدة أو ألوان متشابهة. كما تحتاج نسخ SAM المتخصصة (كالطبية) إلى تدريب مخصص لضمان دقة أعلى في بيئات معينة. بوجه عام، تعزيز أداء SAM في حالات غامضة أو موجهة للغاية لا يزال مجالًا بحثيًا ناشئًا.

خوارزمية DreamerV3

الوصف: هي خوارزمية تعلم معزّز مبنية على «نموذج للعالم» (world model)، أُعلن عنها في أوائل 2023. تميّز DreamerV3 بكونها خوارزمية عامة (General) قادرة على التعلم في نطاق واسع من البيئات والمهام باستخدام ضبط واحد فقط (Single configuration). فقد أظهر الفريق المطوّر أن النموذج يتفوق على خوارزميات متخصصة في أكثر من 150 بيئة مختلفة (ألعاب ومحاكيات روبوتية وغيرها) باستخدام نفس الإعداد التجريبي.
آلية عملها: يعتمد DreamerV3 على تعلم نموذج دقيق لبيئة العمل المُجسّدة، بما في ذلك ديناميكياتها. وباستخدام هذا النموذج «الخيالي»، يقوم الوكيل بتخيل سيناريوهات مستقبلية (مثل تخطيط مسارات افتراضية) وتحسين سياسته وفقًا لذلك. يشمل ذلك استخدام تقنيات مثل التطبيع وتسوية المكافآت وتصميم التحويلات (Transformations) للحفاظ على استقرار التعلم عبر مجالات مختلفة. بمعنى آخر، يتعلّم DreamerV3 كيف يتصرف في المستقبل بناءً على ما يتوقعه من نتائج، مما يجعله مرنًا ويستفيد من معرفة العالم المُتعلم.
ما يميزها: أبرز ما يميز DreamerV3 هو «عموميّتها» (Generality): فمع ضبط واحد فقط يمكنها التفوق على حلول متخصصة عبر مهام متنوعة. وهي أول خوارزمية تعلم معزز تظهر قدرة على استكشاف مهام بعيدة المدى بدون تعليم بشري؛ إذ تمكنت من جمع الماسة في لعبة Minecraft من الصفر دون أي بيانات تدريب بشرية أو تدريج تدريجي. هذا الإنجاز يدل على أن DreamerV3 قادر على مواجهة بيئات ذات مكافآت شحيحة واستراتيجيات بعيدة الأمد بنجاح.
دراسة حالة: اختُبِرت DreamerV3 عمليًا في عدد من البيئات الصعبة. على سبيل المثال، في لعبة Minecraft الشهيرة، نجح وكيل DreamerV3 لأول مرة في العالم في جمع الماسة (Diamond) دون أي مساعدة خارجية. أمكنه تحقيق ذلك من خلال تعلمه التخطيط طويل الأمد (مثل صناعة المولدات وأساليب الزراعة المعقدة) بناءً على نموذج العالم الذي تعلمه. كما تم تطبيقه في مهام التحكم المتنوعة (مثل روبوتات محاكاة OpenAI Gym وغيرها)، حيث أظهر أداءً متفوقًا أو متكافئًا مع أفضل الأساليب التقليدية.
التحديات: تواجه DreamerV3 تحديات مرتبطة بطبيعة النموذج المعتمد على العالم. فهي تتطلب وقتًا حاسوبيًا كبيرًا لتدريب النموذج الذي يحاكي البيئة بدقة، خصوصًا في بيئات ذات تعقيد عالٍ أو عشوائية كبيرة. في البيئات التي لا يمكن نمذجتها بسهولة (شديدة العشوائية أو ذات صوتية عالية)، قد يواجه نموذج العالم صعوبة في التنبؤ بدقة. بالإضافة إلى ذلك، فإن ضبط آليات الاستقرار (مثل التعلم المقنّن normalization) وعوامل المكافأة يحتاج إلى خبرة لضمان أداء جيد في تطبيقات جديدة. ومع ذلك، فإن نجاح DreamerV3 في مختلف المجالات يفتح آفاقًا لتطبيق التعلم المعزز بشكل أوسع من ذي قبل.
قراءة الورقة العلمية

إن تطوّر خوارزميات الذكاء الاصطناعي خلال السنوات الأخيرة يعكس التحوّل السريع في مفاهيم التصميم المعماري للنماذج والتطبيقات. من نموذج Mamba القائم على نماذج الفضاء الحلي، إلى Mixture of Experts الذي يوسّع سعة النماذج دون التضحية بالكفاءة، مرورًا بـRWKV الذي يعيد الاعتبار للشبكات العودية بزمن استدلال ثابت، وصولًا إلى SAM في مجال رؤية الحاسوب، وDreamerV3 في التعلم المعزز—كل هذه الخوارزميات تمثل قفزات نوعية في الأداء، والتعميم، وكفاءة التنفيذ.

هذه الابتكارات ليست مجرد تحسينات هندسية، بل تغييرات جذرية في طريقة تفكيرنا في الذكاء الاصطناعي نفسه، وكيفية نشره في العالم الواقعي. ومع تزايد الحاجة إلى نماذج أكثر قدرة على الفهم، والاستدلال، والتصرف في بيئات حقيقية أو مركبة، فإن هذه الخوارزميات تمهد الطريق لجيل جديد من الأنظمة الذكية التي ستكون أسرع، وأدق، وأكثر تكيفًا من أي وقت مضى.

ولذلك، فإن متابعة هذه الخوارزميات، فهم آلياتها، وتجربتها على نطاق عملي أصبح ضرورة لكل مهتم أو مختص في المجال، لا مجرد اختيار.

أحدث الخوارزميات في الذكاء الاصطناعي (2023 – الآن)

خوارزمية Mamba

مزج الخبرة (Mixture of Experts – MoE)

خوارزمية RWKV

خوارزمية SAM (Segment Anything)

خوارزمية DreamerV3

حول المحتوى:

الأسئلة الشائعة:

ما هو Ollama؟

هل يمكن تشغيل Ollama بدون إنترنت؟

هل كان هذا مفيدًا لك؟

أضف تعليقك