تقنية TTT: هل نقترب من ذكاء اصطناعي أكثر تطوراً؟

تقنية TTT (Test-Time Training): تحسين نماذج الذكاء الاصطناعي

تطورت النماذج اللغوية بشكل كبير خلال السنوات الأخيرة، لكنها لا تزال تعاني من صعوبة في التعامل مع المشكلات التي تتطلب تفكيرًا مجردًا أو استنتاجات معقدة.

وفي هذا السياق، تستخدم تقنية التدريب أثناء وقت الاختبار (Test-Time Training - TTT) كواحدة من الحلول البارزة لتحسين قدرة هذه النماذج على حل المشكلات غير المألوفة.

وعلى الرغم من أن هذه التقنية ليست جديدة كليًا، فإن الأبحاث الأخيرة أظهرت فعالية كبيرة لتطبيقها على مهام التفكير المجرد، مثل معيار ARC.

ولذا فهي تعتبر خطوة هامة في السعي إلى الذكاء الاصطناعي العام (AGI)، وهو ما يجعلها موضوعًا رئيسيًا حاليًا في أبحاث الذكاء الاصطناعي.

في هذا المقال، سنستعرض مفهوم هذه التقنية، والفارق بينها وبين الأساليب التقليدية، والنتائج المبهرة التي حققتها وفقًا للورقة العلمية الأخيرة الصادرة عن معهد ماساتشوستس للتكنولوجيا.

أداء وتحديات النماذج اللغوية الحالية

إن النماذج اللغوية مثل GPT وBERT أظهرت لنا أداءً ممتازًا في المهام التي تم تدريبها عليها مسبقًا.

حيث أنها تعتمد بشكل أساسي على الأنماط المألوفة داخل بيانات التدريب.

فعلى سبيل المثال، إذا قدمنا لها مشكلة حسابية مشابهة لما تدربت عليه، فإنها تؤديها بدقة.

ولكن إذا واجهت مشكلات جديدة تتطلب استنتاجات غير مباشرة أو تحويلات منطقية، فإن أداؤها يتراجع بشكل ملحوظ.

ومن هنا تأتي المحاولات من المتخصصين لمحاولة التغلب على مثل هذه المشاكل.

معيار ARC: قياس قدرة التفكير المجرد

معيار ARC (Abstraction and Reasoning Corpus) هو أداة هامة لاختبار قدرة النماذج على التفكير المجرد.

حيث يعرض هذا المعيار ألغازًا بصرية على شكل شبكات، تتطلّب من النموذج استنتاج قواعد مُحددة وتطبيقها للوصول إلى الحلول.

مثال عملي:

يتم عرض شبكة 7x7 تحتوي على أشكال هندسية، ويتم تقديم ثلاثة أمثلة لحلولها.

وبعد ذلك، يُطلب من النموذج التنبؤ بالحالة الرابعة بناءً على الأنماط المستخلصة.

وعادة ما يحقق البشر أداءً جيدًا في هذه المهام (متوسط الأداء 60.2%)، بينما تتوقف النماذج التقليدية عند دقة أقل من 42%.

لنتطرق الآن إلى تقنية التدريب أثناء وقت الاختبار، ثم نتائجها في ARC، وهل استطاعت زيادة الدقة عن النماذج التقليدية؟

ما هي تقنية التدريب أثناء وقت الاختبار TTT؟

تقنية TTT هي أداة تدريب مؤقتة لتحسين أداء النماذج أثناء حلها للمشاكل خلال مرحلة التنبؤ (Inference).

وبخلاف الطرق التقليدية التي تعتمد على التدريب المسبق فقط، تسمح هذه التقنية بتحسين أداء النموذج بشكل ديناميكي عند مواجهته لمشكلات جديدة.

فبدلًا من الاعتماد على بيانات التدريب فقط، يتم تحديث أوزان النموذج بشكل مؤقت أثناء معالجة مشكلة جديدة باستخدام بيانات مشتقة من نفس المشكلة.

كيف تعمل TTT

١. توليد بيانات مساعدة، حيث يتم إنشاء بيانات إضافية باستخدام تحويلات هندسية (مثل الانعكاس والدوران).

لنفترض أن لدينا صورة. تصنع TTT عدة نسخ منها، مع تغييرات طفيفة في كل نسخة.

فمثلاً، قد تنعكس النسخة، أو تدور، أو يتغير حجمها، أو حتى ألوانها. هذه النسخ المُعدّلة بمثابة أمثلة سريعة تساعد النموذج على فهم المشكلة بشكل أفضل.

٢. تحديث المعلومات، حيث يتم تحسين النموذج بناءً على البيانات (النسخ) الجديدة لتقديم حل أدق.

٣. العودة للأصل بعد حل المشكلة، فالنموذج يعود إلى حالته الأصلية بعد كل مهمة للحفاظ على استقراره، جاهزًا لحل مشكلة جديدة بنفس الطريقة.

مثال لتوضيح ما ستفعله التقنية

لنفترض أننا طلبنا من النموذج التعرف على نمط جديد لم يسبق له رؤيته، أي أنه سيحاول فهم نمط جديد لم يره من قبل.

هنا ستقوم TTT بتوليد مجموعة من النُسخ المُعدّلة لهذا النمط، مع تغييرات طفيفة في كل نُسخة. مثلاً، قد تقلب بعض الأشكال، أو تقوم بتغيير اتجاهها.

إذًا فهذه النُسخ سوف تساعد النموذج على استيعاب النمط الجديد وحلّه بدقة، لتحسين دقة التنبؤ.

توليد بيانات التدريب أثناء وقت الاختبار (TTT)

تقنية LoRA ودورها في TTT

لنتخيل أن نموذج الذكاء الاصطناعي كعقل بشري يتكون من مليارات الخلايا العصبية. إذن لتحديث هذا العقل -أي لجعله يتعلم أشياء جديدة- سنحتاج لتغيير طريقة اتصال هذه الخلايا العصبية ببعضها. وهذا التغيير يسمى "تعديل الأوزان"، وهنا يأتي دور LoRA.

و LoRA (Low-Rank Adaptation) هي طريقة ذكية لتحديث هذه الأوزان بشكل سريع وفعال.

فبدلًا من تغيير جميع الاتصالات بين الخلايا العصبية، وهو أمر مُكلف ويستغرق وقتًا طويلاً، تقوم LoRA بالتركيز على تغيير عدد قليل فقط من هذه الاتصالات، وهي الأهم لتعلّم الشيء الجديد.

ويمكننا تشبيه ذلك بأنه إجراء تعديلات طفيفة على جهاز مُعقّد بدلًا من إعادة بنائه من الصفر. وهذا من شأنه جعل العملية خفيفة وفعالة من حيث الموارد الحسابية.

LoRA: تعديل النموذج بشكل مؤقت دون التأثير على المتغيرات الأصلية

كيف تعمل LoRA؟

تقوم بتحديد طبقات معينة داخل النموذج والتي تحتاج إلى تعديل.

ثم يتم تعديل هذه الطبقات فقط، وذلك ما يقلل من الوقت والموارد المطلوبة للتحديث.

ما دورها في عملية التدريب أثناء وقت الاختبار

الامر هنا لا يختلف عما شرحناه سابقًا، حيث تقوم LoRA بتسهيل تنفيذ عملية TTT ، وذلك عن طريق تمكين النموذج من التكيف مع المشكلة الجديدة دون الحاجة إلى إعادة تدريبه بالكامل.

إذًا حصلنا على تحسينات مع وقت وجهد وموارد أقل، مع الحفاظ على استقرار النموذج الأساسي، وأصبح النموذج أكثر مرونة في التكيّف مع المهام المختلفة.

المقارنة بين TTT والبدائل الأخرى

1. التعلم من أمثلة قليلة (Few-Shot Learning)

التعلم من أمثلة قليلة هو تقنية يتم استخدامها لتحسين أداء النماذج عند التعامل مع بيانات جديدة ومحدودة. وتعتمد على تقديم أمثلة قليلة فقط للنموذج ليتمكن من استنباط القواعد وحل المهام.

أوجه التشابه

كلا التقنيتين تُستخدمان لتحسين أداء النماذج في المشكلات الجديدة.
التركيز على التكيف مع بيانات محدودة دون الحاجة إلى تدريب شامل.

أوجه الاختلاف

TTT:

يعتمد على تحديث أوزان النموذج مؤقتًا باستخدام بيانات إضافية يتم توليدها أثناء وقت الاختبار.
يتطلب موارد حسابية أكبر مقارنة بـ Few-Shot Learning.

Few-Shot Learning:

يعتمد على استنتاج الحلول بناءً على أمثلة قليلة، دون تعديل أوزان النموذج.
أكثر كفاءة من حيث الموارد، ولكنه أقل مرونة في المشكلات المعقدة التي تتطلب تحسينات ديناميكية.

2. التفكير التسلسلي (Chain of Thought)

التفكير التسلسلي هو نهج آخر يتم استخدامه لتحسين أداء النماذج من خلال دفعها للتفكير خطوة بخطوة.

كما أنه يركز على استخدام عمليات منطقية متسلسلة للوصول إلى الحلول.

ولا يتضمن تعديل أوزان النموذج أثناء التنبؤ، بل يعتمد على استراتيجيات تفسيرية لتحسين الإجابات.

TTT مقابل التفكير التسلسلي

TTT يوفر مرونة أكبر عند التعامل مع المشكلات الجديدة، بينما يكون التفكير التسلسلي أكثر ملاءمة للمهام التي تتطلب عمليات منطقية معروفة مسبقًا.

نتائج دراسة MIT وأهميتها

وفقًا لدراسة معهد ماساتشوستس للتكنولوجيا (MIT)، أثبتت تقنية TTT فعاليتها بشكل كبير:

تمكنت النماذج من تحقيق دقة بلغت 61.9% على معيار ARC، متجاوزة متوسط الأداء البشري.
ساعدت LoRA في تحسين الأداء بنسبة تصل إلى 6 أضعاف مقارنة بالنماذج التقليدية.
أثبتت التقنية أنها تسمح للنماذج الصغيرة بتحقيق أداء يضاهي النماذج الأكبر حجمًا، وذلك ما يؤدي لتعزيز كفاءة الموارد المستخدمة.

الأركان الأساسية لتطبيق TTT بنجاح

وفقًا لنفس الدراسة، فإن فعالية TTT تعتمد على ثلاثة عناصر رئيسية:

التدريب المسبق على مهام مشابهة: يزيد من قدرة النموذج على التكيف مع المشكلات الجديدة.
استخدام مهام مساعدة وتعديلات: مثل استبعاد جزء من البيانات (Leave-One-Out) أو تطبيق التحويلات الهندسية كالدوران والانعكاس، والتي شرحناها سابقًا.
التدريب لكل حالة على حدة: تحسين النموذج استنادًا إلى بيانات الإدخال لكل مشكلة على حدة.

التطبيقات العملية لتقنية التدريب أثناء وقت الاختبار

سنذكر مثالين فقط لتوضيح أهمية هذه التقنية في مختلف المجالات

١. الطب والتشخيص

في التشخيص الطبي، استخدام TTT لتحليل الصور الطبية مثل الأشعة السينية يؤدي لتحسينات دقيقة على النتائج عند التعامل مع حالات جديدة أو غير مألوفة.

٢. القيادة الذاتية

تحتاج السيارات ذاتية القيادة إلى التعامل مع سيناريوهات ديناميكية مثل الظروف الجوية غير المتوقعة أو تغيرات حركة المرور. و TTT تساعد هذه الأنظمة من التكيف بسرعة وتحسين قراراتها في الوقت الفعلي.

التحديات أمام التقنية

التكلفة الحسابية:
تحتاج TTT إلى موارد إضافية أثناء وقت التنبؤ، ما قد يكون عائقًا في التطبيقات ذات الميزانيات المحدودة.
التعقيد التقني:
تنفيذها يتطلب خبرات تقنية متقدمة، وذلك ما قد يحد من استخدامها على نطاق واسع.

بالختام، فإن تقنية التدريب أثناء وقت الاختبار (TTT) هي خطوة قوية نحو تحسين قدرة النماذج الذكية على التكيف مع التحديات الجديدة.

وقد أظهرت إمكانيات كبيرة في معالجة المشكلات التي لم تكن ممكنة سابقًا.

ومع استمرار الأبحاث، نتوقع أن تكون أداة رئيسية لتحقيق الذكاء الاصطناعي العام وتطبيقاته المتعددة في التعليم، الطب، والصناعات المختلفة.

أو تحقق من الفئات الشعبية لدينا...

من نحن

تواصل معنا