
يثير عالم الذكاء الاصطناعي جدلاً جديداً. هذه المرة، تدور الأسئلة حول DeepSeek الصيني وإمكانية استخدامه لمخرجات نموذج "Gemini" التابع لجوجل في تدريب أحدث نماذجه اللغوية.
وعلى الرغم من غياب الأدلة القاطعة حتى الآن، يعتقد عدد من الخبراء أن المؤشرات واضحة وتستدعي التوقف عندها.
اتهامات بتدريب DeepSeek R1 على مخرجات Gemini
في الأسبوع الماضي، كشف مختبر DeepSeek الصيني عن نسخة محدثة من نموذجه للذكاء الاصطناعي R1، الذي يركز على الاستدلال، ويقدم أداءً جيداً في عدد من مقاييس الرياضيات والبرمجة.
ولم تفصح الشركة عن مصدر البيانات التي اعتمدتها في تدريب النموذج، لكن بعض باحثي الذكاء الاصطناعي يتكهنون بأن جزءاً منها على الأقل جاء من عائلة نماذج "Gemini" التي تطورها جوجل.
في هذا السياق، نشر سام بيتش، وهو مطور مقيم في ملبورن يبتكر تقييمات "الذكاء العاطفي" للذكاء الاصطناعي، ما يدعي أنه دليل على أن أحدث نموذج من DeepSeek جرى تدريبه على مخرجات من "Gemini".
If you're wondering why new deepseek r1 sounds a bit different, I think they probably switched from training on synthetic openai to synthetic gemini outputs. pic.twitter.com/Oex9roapNv
— Sam Paech (May 29, 2025)
وأوضح بيتش في منشور على منصة إكس، أن نموذج DeepSeek، المسمى R1-0528، يفضل كلمات وتعابير تشبه تلك التي يفضلها نموذج "Gemini 2.5 Pro" من جوجل.
هذا الادعاء لا يمثل دليلاً قاطعاً. لكن مطوراً آخر، وهو المبتكر المجهول لأداة تقييم "حرية التعبير" للذكاء الاصطناعي المسماة SpeechMap، لاحظ أن آثار نموذج DeepSeek – "الأفكار" التي يولدها النموذج أثناء عمله للوصول إلى نتيجة – "تبدو كآثار Gemini".
ليست المرة الأولى
ليست هذه المرة الأولى التي تواجه فيها DeepSeek اتهامات مشابهة بالتدريب على بيانات من نماذج ذكاء اصطناعي منافسة.
ففي ديسمبر/كانون الأول الماضي، لاحظ مطورون أن نموذج V3 من DeepSeek كثيراً ما كان يعرف نفسه بأنه ChatGPT، منصة روبوت الدردشة المدعومة بالذكاء الاصطناعي من OpenAI، الأمر الذي يوحي بأنه ربما جرى تدريبه على سجلات محادثات ChatGPT.
وفي وقت سابق من هذا العام، أفادت OpenAI صحيفة "فاينانشال تايمز" أنها عثرت على أدلة تربط DeepSeek باستخدام التقطير (distillation)، وهي تقنية لتدريب نماذج الذكاء الاصطناعي عن طريق استخلاص البيانات من نماذج أكبر وأكثر قدرة.
ووفقًا لوكالة بلومبرغ، اكتشفت مايكروسوفت، وهي متعاون وثيق ومستثمر في OpenAI، أن جهات معينة كانت تسحب كميات كبيرة من البيانات عبر حسابات مطوري OpenAI في أواخر عام 2024 – وهي حسابات تعتقد OpenAI أنها تابعة لـ DeepSeek.
تجدر الإشارة إلى أن عملية التقطير في حد ذاتها ليست ممارسة غير شائعة، لكن شروط خدمة OpenAI تمنع العملاء من استخدام مخرجات نماذج الشركة لبناء ذكاء اصطناعي منافس.
هل هي مجرد مصادفة؟
من ناحية أخرى، يرى البعض أن تطابق الصياغات بين النماذج المختلفة قد يكون مجرد مصادفة. يشير خبراء إلى أن العديد من نماذج الذكاء الاصطناعي تبدو الآن متشابهة في أسلوبها.
ويعود ذلك إلى أن الإنترنت، وهو المصدر الرئيسي لبيانات التدريب لمعظم الشركات، أصبح مليئًا بالمحتوى الذي أنتجته أدوات الذكاء الاصطناعي.
وتنتشر الروبوتات التي تنشر على منصات مثل Reddit وX، وتغرق مزارع المحتوى محركات البحث بمقالات كتبها الذكاء الاصطناعي. هذا يجعل من الصعب للغاية تصفية مخرجات الذكاء الاصطناعي بشكل كامل من مجموعات بيانات التدريب.
رغم ذلك، لا يستبعد خبراء في الذكاء الاصطناعي مثل ناثان لامبرت، الباحث في معهد AI2 لأبحاث الذكاء الاصطناعي غير الربحي، أن تكون DeepSeek قد دربت نموذجها على بيانات من "Gemini" التابع لجوجل.
وكتب لامبرت في منشور على منصة إكس: "لو كنت مكان DeepSeek، لكنت بالتأكيد سأقوم بإنشاء كم هائل من البيانات الاصطناعية من أفضل نموذج بواجهة برمجة تطبيقات متاح".
وأضاف لامبرت أن DeepSeek "تعاني من نقص في وحدات معالجة الرسومات (GPUs) ولديها وفرة في السيولة النقدية. هذا الأمر يمثل فعليًا قوة حاسوبية أكبر بالنسبة لهم."
محاولات لمنع التقطير
وفي محاولة جزئية لمنع ممارسات مثل التقطير، بدأت شركات الذكاء الاصطناعي في تكثيف إجراءاتها الأمنية.
ففي أبريل/نيسان، بدأت OpenAI تطلب من المؤسسات إكمال عملية تحقق من الهوية للوصول إلى نماذج متقدمة معينة.
تتطلب العملية بطاقة هوية صادرة عن جهة حكومية من إحدى الدول التي تدعمها واجهة برمجة تطبيقات OpenAI؛ والصين ليست ضمن هذه القائمة.
وفي سياق متصل، بدأت جوجل مؤخرًا في "تلخيص" الآثار التي تولدها النماذج المتاحة عبر منصة مطوري AI Studio الخاصة بها، وهي خطوة تجعل تدريب نماذج منافسة عالية الأداء على آثار Gemini أكثر صعوبة.
وفي مايو/أيار، قالت شركة Anthropic إنها ستبدأ في تلخيص آثار نموذجها الخاص، مشيرة إلى الحاجة لحماية "ميزاتها التنافسية".
يعكس هذا الجدل حدة السباق في مجال الذكاء الاصطناعي. تستغرق نماذج مثل Gemini و GPT-4 سنوات في بنائها.
لذا، عندما يحقق مختبر أحدث مثل DeepSeek مكاسب كبيرة فجأة، يبدأ الناس في التساؤل: هل بنوا هذا حقًا بمفردهم؟
وسواء استخدمت DeepSeek مخرجات Gemini أم لا، هناك أمر واحد واضح، وهو أن شركات الذكاء الاصطناعي تكثف جهودها لحماية أسرارها.
ومع وجود مليارات الدولارات على المحك، من المؤكد أن هذا لن يكون آخر جدل نشهده في هذا القطاع سريع التطور.