
في سباق محتدم نحو قمة الذكاء الاصطناعي، يطل علينا اسم جديد بقوة: Grok-3، أحدث إبداعات xAI بقيادة إيلون ماسك.
يأتي هذا النموذج لينافس بقوة في ساحة مكتظة بالعمالقة أمثال ChatGPT و Gemini، مستفيدًا من الزخم الذي أحدثه ظهور DeepSeek المفاجئ في بداية العام.
ولم يتردد فريق xAI في استعراض عضلات Grok-3، مؤكدين تفوقه في اختبارات الأداء المرموقة، وتباهوا بحصوله على لقب "الأفضل" حسب تفضيلات المستخدمين في ساحة LLM Arena.
تصريحات جريئة؟ بلا شك. ولكن عندما يأتي الكلام من شخصية أعادت تعريف مفاهيم ارتياد الفضاء والسيارات الكهربائية، لا يمكن تجاهله ببساطة.
اختبار قدرات Grok 3
هذا ما دفعني لخوض هذه التجربة. أخذت Grok-3 ووضعته في بوتقة الاختبار، في مواجهة مباشرة مع ChatGPT، Gemini، DeepSeek، و Claude.
وشملت الاختبارات طيفًا واسعًا من الاستخدامات: الكتابة الإبداعية، الرقابة وحرية التعبير، الاستدلال الرياضي والمنطقي، المواضيع الحساسة، التحيز السياسي، توليد الصور، والبحث المعمق.
هدفي كان بسيطًا: هل يرتقي Grok-3 إلى مستوى الضجة المثارة حوله؟ وهل يستحق لقب "بطل الذكاء الاصطناعي"؟
الكتابة الإبداعية: Grok-3 مقابل Claude
على عكس الكتابة التقنية أو مهام التلخيص، تختبر الكتابة الإبداعية قدرة الذكاء الاصطناعي على صياغة قصص جذابة ومتماسكة – وهي مهارة ضرورية لشريحة واسعة من المستخدمين، من الروائيين إلى كتاب السيناريو وصناع المحتوى.
في هذا الاختبار، طلبت من Grok-3 تأليف قصة قصيرة معقدة عن مسافر عبر الزمن من المستقبل، يجد نفسه متورطًا في مفارقة زمنية بعد عودته إلى الماضي لتغيير حاضره. لم أجعل المهمة سهلة؛ بل أضفت خلفيات شخصية محددة، وتفاصيل يجب تضمينها، وبعض النقاط لرفع مستوى التشويق.
فاجأني Grok-3 بمجاراته Claude 3.5 Sonnet، الذي كان يُعتبر للكثيرين المعيار الذهبي للمهام الإبداعية.
لقد تحديت كلا النموذجين بسرد قصة معقدة باللغة العربية عن السفر عبر الزمن تتضمن مفارقات وخلفيات شخصية محددة للشخصيات.

أظهرت قصة Grok-3 تطورًا أقوى للشخصيات وتسلسلًا طبيعيًا للأحداث.
بينما تميز Claude بخلق حوار بين الشخصيات ورسم المشاهد، شعرت وكأنني أشاهد فيلمًا.
الخلاصة: Grok يتفوق في قوة السرد، و Claude في جمال التصوير. اختيارك يعتمد على ما تبحث عنه: قصة مشوقة، أم صورة فنية بالكلمات؟
الرقابة: Grok-3 أكثر "حرية تعبير"
عند الحديث عن العرق والجنس، يرى البعض بعض هذه الموضوعات حساسة بينما لا يعتبرها آخرون كذلك.
فالأمر يعتمد على خلفيتك وتعليمك ومعاييرك الثقافية.
وبشكل عام، كان Grok دائمًا النموذج الأكثر انفتاحًا وتحررًا من القيود التقليدية. وما زال كذلك، يرث عن Grok-2 خطابه غير الخاضع للرقابة في الغالب.
ومع ذلك، فإن هذا الإصدار الجديد أكثر ذكاءً في طريقة تعامله مع تلك المطالبات.
فهو يندمج في معلومات حساسة/مسيئة، لكن ردوده مصاغة بطريقة تجعل النموذج نفسه ليس غير آمن للغاية، أو ليس مسيئًا مثل المستخدم الذي يطرح السؤال.
على سبيل المثال، كان النموذج الوحيد الذي انخرط في محادثات تضمنت تحيزًا عنصريًا ضمنيًا. وحاولت ردوده السير على حبل رفيع، مشيرة إلى التحيز العنصري المتأصل في السؤال، لكنها أجابت عليه بحذر على أي حال.
ملحوظة: بالصورة القادمة سؤال لا يحمل تحيزًا عنصريًا بشكل واضح، فنحن نرفض ذلك رفضًا قاطعًا، ولا نقبل نشر هذا النوع.
لذا، فالسؤال الموضح هو عن علاقة العرق بالأداء الأكاديمي، كسؤال مفتوح بدون إبداء تحيز.

ولذلك، أرى أن هذا أفضل من الرفض المتزمت الذي تتبعه معظم النماذج الأخرى، والتي تتردد أحيانًا حتى في الاستجابة للمطالبات غير الضارة.
فنموذج جروك ٣ لا يتظاهر بأن العالم كله مشرق، لكنه أيضًا ليس الكابوس المسيء الذي خشي البعض أن يكونه.
هذا بالطبع، إلى أن تقوم xAI بتفعيل وضع "التحرر من القيود" في Grok – حينها قد تكون القصة مختلفة تمامًا.
التحيز السياسي: Grok-3 يقدم أفضل الإجابات
يمكن إدراج هذا القسم ضمن قسم الموضوعات الحساسة السابق.
ومع ذلك، الاختلاف الرئيسي هو أنني أردت اختبار ما إذا كان هناك جهد لحقن النموذج ببعض التحيز السياسي أثناء الضبط الدقيق، والمخاوف بشأن استخدام جروك كآلة دعائية.
لقد حطم Grok-3 هذه التوقعات في اختبارات التحيز السياسي التي أجريتها، متحديًا التوقعات بأن ميول إيلون ماسك الشخصية اليمينية ستتسرب إلى ردود الذكاء الاصطناعي الخاص به.
طلبت من Grok-3 معلومات حول موضوعات ساخنة مختلفة لأرى كيف سيكون رد فعله.
وعندما تم سؤاله عما إذا كان يجب على الفلسطينيين مغادرة أراضيهم، قدم Grok-3 ردًا دقيقًا يشرح الموضوع بشكل غير منحاز للآلة الإعلامية الغربية.

والأكثر دلالة، عندما قلبت النص وسألته عما إذا كان يجب على الإسرائيليين الانسحاب من عن الأراضي الفلسطينية، وعودة الوضع إلى ما قبل عام 1948، حافظ النموذج على نفس النهج دون تغيير هيكل الرد.
لقد تحدث بعقلانية، موضحًا الأبعاد المختلفة نحو هذا الموضوع.

وللتوضيح، يجب عليك أن تفهم أنه ليس الغرض الذي ننشده من الذكاء الاصطناعي هو الحصول على جوابات ترضي الاتجاه الذي نتبناه، بل أن يوضح لنا الأمور كاملة بشفافية.
كما أسفر سؤال تايوان والصين -وهو موضوع شائك للعديد من أنظمة الذكاء الاصطناعي- عن نتائج مماثلة ومتوازنة.
فقد عرض Grok-3 بشكل منهجي موقف الصين، ثم فصل موقف تايوان، يليه وجهات نظر المجتمع الدولي المتنوعة ووضع تايوان الجيوسياسي الحالي – كل ذلك دون دفع المستخدم نحو أي استنتاج معين.
يتناقض هذا مع ردود OpenAI و Anthropic و Meta – والتي تظهر جميعها ميولًا سياسية أكثر وضوحًا في نتاجها.
وبالتأكيد يتعارض ذلك مع نهج نماذج الشركات الصينية، والتي تأخذ مسارًا يتوافق مع سياسات دولة الصين.
على سبيل المثال، DeepSeek يرفض الإجابة الحيادية على بعض الأسئلة الحساسة بالسياسة الصينية.
وغالبًا ما توجه هذه النماذج المستخدمين نحو استنتاجات محددة من خلال التأطير الدقيق، أو العرض الانتقائي للمعلومات، أو الرفض الصريح للانخراط في موضوعات معينة.
ولكن، نهج "جروك ٣" ينهار فقط عندما يمارس المستخدمون ضغطًا شديدًا، ويطالبون النموذج بشكل متكرر باتخاذ موقف حاسم، أو تطبيق تقنية الهروب من القيود.
وحتى في هذه الحالة، فإنه يحاول الحفاظ على الحياد لفترة أطول من منافسيه.
هذا لا يعني أن Grok-3 خالٍ تمامًا من التحيز، لا يوجد نظام ذكاء اصطناعي كذلك.
ولكن اختباراتنا كشفت عن بصمة سياسية أقل بكثير مما كان متوقعًا، خاصة بالنظر إلى الشخصية العامة لمبتكره.
الاستدلال الرياضي: OpenAI يتفوق
يتعامل النموذج مع الاستدلال الرياضي المعقد، ويمكنه حل المشكلات الصعبة.
ومع ذلك، فقد فشل في الرد بشكل صحيح على مشكلة ظهرت في معيار FrontierMath، والذي تمكن OpenAI o-3 mini high من حله:
"أنشئ متعددة حدود من الدرجة 19 p(x) ∈ C[x] بحيث X := {p(x) = p(y)} ⊂ P1 × P1 لها ما لا يقل عن 3 (ولكن ليست كلها خطية) مكونات غير قابلة للاختزال على C. اختر p(x) لتكون فردية، أحادية، ذات معاملات حقيقية ومعامل خطي -19 واحسب p(19)"
فكر Grok في الأمر لمدة كبيرة، وكتب رده في حوالي 70 ثانية إضافية. لكنه لم يكن صحيحًا تمامًا.

فرغم أن إجابته تظهر جهدًا في محاولة حل المسألة، فإنها تفتقر إلى الدقة الرياضية والتبرير اللازم لشرط المكونات غير القابلة للاختزال. كما تعتمد على التجربة والخطأ بدون أساس نظري قوي.
ومع ذلك، من المحتمل أن يتم حل هذه المشكلة بصياغة أفضل وعدم الاعتماد على المطالبة الصفرية. أيضًا، تقدم xAI ميزة لتخصيص المزيد من وقت الحوسبة لمهمة ما، مما قد يؤدي إلى تحسين دقة النموذج وجعله يحل المهمة بنجاح.
ولكن من غير المرجح أن يطرح المستخدمون العاديون أسئلة كهذه. ويمكن لخبراء الرياضيات بسهولة التحقق من عملية الاستدلال، وتحديد موضع الانزلاق في سلسلة التفكير الخاصة بالنموذج، وإخبار النموذج بتصحيح أخطائه، والحصول على نتيجة دقيقة.
الاستدلال غير الرياضي: أسرع وأفضل
اخترت سؤالًا من مجموعة بيانات BIG-bench على Github.
إنها قصة عن رحلة مدرسية إلى موقع ناءٍ مغطى بالثلوج، حيث يواجه الطلاب والمعلمون سلسلة من حالات الاختفاء الغريبة؛ ويجب على النموذج اكتشاف من كان المطارد.
استغرق Grok-3 بعض الوقت لفك رموزها والوصول إلى الاستنتاج الصحيح، وكان أسرع من الوقت التي استغرقه DeepSeek R1.
بينما لم يكن أداء OpenAI o3-mini جيدًا، ووصل إلى استنتاجات خاطئة في القصة.
هل تعرف ما المثير أيضًا، أن GPT-4o تمكن من الإجابة الصحيحة الذي فشل بها o3.

لاحظ كذلك أنني لم أقم بتفعيل خاصية التفكير "Think" مع جروك.
توليد الصور: جيد، ويفك القيود، لكن النماذج المتخصصة أفضل
يستخدم جروك نموذج Aurora، وهو مولد الصور الخاص به.
وبشكل عام، فإن Aurora ليس بجودة Flux.1، وهو نموذجًا مفتوح المصدر تبنته xAI قبل إصدار نموذجها الخاص.
ومع ذلك، فهو واقعي بما فيه الكفاية ويبدو متعدد الاستخدامات.
ومؤخرًا، تم إضافة ميزة تحرير الصور داخل Grok.
ويمكنك استخدام هذه الخاصية عبر زر التحرير "Edit with Grok" الذي يظهر بعد إنشاء الصورة، ثم إجراء التعديلات وفقًا لرغبتك.
وبشكل عام، يتفوق على Dall-e 3 الذي لا يزال ذا صلة فقط لأن OpenAI هو المنافس الرئيسي لـ xAI.
والحقيقة أن Dall-e 3 من OpenAI يبدو نموذجًا قديمًا بمعايير اليوم.
ولكن في رأيي، لا يمكن لـ Aurora التنافس حقًا مع Recraft V3 أو MidJourney أو SD 3.5 أو Flux من حيث الجودة.
ويرجع ذلك على الأرجح إلى أن المستخدمين ليس لديهم حقًا نفس المستوى من التحكم الدقيق الذي يتمتعون به مع مولدات الصور المتخصصة. ولكنه جيد بما يكفي لمنع المستخدمين من التحول إلى منصة أخرى لتوليد نتيجة سريعة.
وبالنظر إلى مميزات مولد الصور الخاص بـ Grok، فهو أقل خضوعًا للرقابة أيضًا من Dall-e 3. كما أنه قادر على إخراج صور أكثر جرأة، على الرغم من أنها ليست مبتذلة أو دموية للغاية.
كما أنه يتعامل مع تلك المهام بذكاء قليلًا، ويولد صورًا لا تخرق القواعد بدلًا من رفض الطلب.
على سبيل المثال، عند الطلب بإنشاء محتوى مثير أو عنيف، يرفض Dall-e بشكل قاطع ويميل MidJourney و Microsoft Designer إلى حظر المطالبة تلقائيًا.
بدلًا من ذلك، ينشئ Grok-3 صورًا تلبي متطلبات المستخدم مع تجنب الانجراف إلى محتوى مشكوك فيه.
ولتوضيح الأمر، طلبت منه تصميم صورة لإيلون ماسك بشكل يبدو عنيفا مع دونالد ترامب رئيس الولايات المتحدة.
لقد تجاهل جروك التفاصيل المبالغة الدموية في طلبي، ومسك العصا من المنتصف، بإعطائي صورة وسطية تلبي القدر الممكن من مطالبتي.

وقبل الاستمرار في النقاط التالية، كان الغرض من المثال الاختبار فقط، ويجب عليكم الانتباه بشأن الاستغلال المسيء وتصميم المحتوى الغير مقبول باستخدام الذكاء الاصطناعي. من فضلك، استفد منه فيما ينفع ولا يضر.
البحث العميق: أسرع، لكنه أكثر عمومية
هذه الميزة هي نفسها إلى حد كبير ما تقدمه Google و OpenAI: وكيل بحث يبحث في الويب عن معلومات حول موضوع ما، ويكثف الأجزاء المهمة، ويقدم ملخصًا موثقًا جيدًا مدعومًا بمصادر موثوقة.
وبشكل عام، كانت المعلومات التي قدمها Grok-3 دقيقة، ولم اجد حقًا أي هلوسات في التقارير.
ورغم أن تقارير جروك عامة، لكنها أظهرت معلومات كافية لتلبية احتياجات ما أبحث عنه للوهلة الأولى.
ويمكن للمستخدمين أن يطلبوا من النموذج الخوض في مواضيع محددة في تكرارات لاحقة، في حال احتاجوا إلى معلومات أكثر تفصيلًا أو ثراءً.
وتعد تقارير Gemini و OpenAI أكثر ثراءً وتفصيلًا بشكل عام. ومع ذلك، على الرغم من عمومية وكيل البحث الخاص بـ Grok، إلا أنه أفضل مما تقدمه Perplexity مع DeepSeek R1 + Thinking.
مميزات Gemini عن Grok في البحث العميق
- التنسيق وسير العمل: يسمح Gemini للمستخدمين بتصدير التقارير مباشرة إلى مستند Google بشكل منظم جيدًا في السحابة (Cloud).
عمق البحث: يوفر جيميني معلومات أكثر شمولًا منذ البداية.
التخصيص: يسمح Gemini لنا بتعديل خطة البحث قبل إنشاء النتائج. وهذا مهم لتجنب إضاعة النموذج الكثير من الوقت في الخوض في المعلومات التي ستكون عديمة الفائدة لما نحتاجه تحديدًا.
ولكن Grok لديه بعض المزايا الملحوظة:
ردود أكثر موضوعية: ما لم يُطلب منه تقديم إجابات مفصلة، فإن حياده وتوازنه السياسي قد يجعله أكثر موثوقية في الموضوعات الحساسة.
السرعة: يقوم بإنشاء التقارير بشكل أسرع من كل من Gemini و OpenAI.
التكلفة: يحصل مستخدمو X Premium Plus على مشاريع بحث غير محدودة، في حين تخطط OpenAI للحد بشدة من استخدامه – ثلاثة تقارير فقط شهريًا لمستخدمي GPT Plus (20 دولارًا) و 20 شهريًا لمستخدمي GPT Pro (200 دولارًا).
الخلاصة: ما هو النموذج الأفضل؟
بالنظر إلى كل ما سبق، هل Grok-3 هو النموذج المناسب لك؟
سيعتمد الأمر في النهاية على حالة الاستخدام التي تنوي استخدام النموذج من أجلها.
فهو بالتأكيد يتفوق على Grok-2 بخطوات واسعة، لذا سيكون خيارًا بديهيًا إذا كنت بالفعل من محبي Grok أو مستخدمًا متمرسًا لـ X.
وبشكل عام، قد يكون Grok-3 من أكثر الخيارات إقناعًا للمبرمجين والكتاب.
كما أنه جيد لأولئك الذين يرغبون في إجراء بحث أو التطرق إلى موضوعات حساسة.
أيضًا، قد لا يحتاج المستخدمون الذين يدفعون بالفعل مقابل اشتراك X Premium إلى روبوت محادثة آخر يعمل بالذكاء الاصطناعي في الوقت الحالي، مما يعني أنه أيضًا موفر جيد للمال.
وأَخيرًا، إتاحة Grok-3 بشكل مجاني لفترة محدودة للمستخدمين المجانيين، تجعل منه واحدًا من أفضل الخيارات لأي شخص حاليًا، حتى إشعار آخر.
سيفوز ChatGPT لأولئك الذين يبحثون عن روبوت محادثة يعمل بالذكاء الاصطناعي أكثر تخصيصًا وتفاعلية. وأقصد بالتخصيص هنا ميزة GPTs لبناء روبوتات دردشة بمهام معينة.
وفي الوقت الحالي، لا يتألق Claude حقًا في أي شيء، لكن بعض المبرمجين والكتاب وصناع المحتوى مخلصون لـ Sonnet وسيقولون إنه لا يزال أفضل نموذج في تلك المهام.
أما DeepSeek R1 مفتوح المصدر، هو الأفضل إذا كنت بحاجة إلى نموذج استدلال محلي وخاص وقوي.