
أعلنت شركة Anthropic عن إطلاق نموذج الذكاء الاصطناعي لها Claude 3.7 Sonnet، والمدعوم "بميزة التفكير"، ليكون أول إصدار للشركة في هذا النوع من النماذج.
هذه الميزة أصبحت التقنية التي تعتمد عليها العديد من شركات الذكاء الاصطناعي لتحسين دقة الإجابات.
ورغم تأخر Anthropic بإطلاق أول نموذج تفكير لها، إلا أنها تقدم شيئًا مميزًا، فما هو؟
ما هو Claude 3.7 Sonnet وما يميزه
يعتبر Claude 3.7 Sonnet أول نموذج ذكاء اصطناعي من نوعه في السوق يعتمد على ما تسميه الشركة "النموذج الهجين للاستدلال".
ويأتي كنتاج جهود Anthropic في تسهيل تجربة المستخدم من خلال تقديم نموذجًا واحدًا قادرًا على تنفيذ المهام المتنوعة بكفاءة، بدلًا من الحاجة إلى اختيار نماذج متعددة بمواصفات مختلفة.
فالنموذج الجديد يتميز بإمكانية:
- تقديم إجابات سريعة في الوقت الفعلي عند اختيار الوضع الطبيعي "Normal: No Extended Thinking"
- أو تحليل أكثر تعمقًا عند تفعيل وضع التفكير المطول "Extended Thinking"

وللتوضيح، يعتبر إصدار Sonnet 3.7 وكأنك جمعت بين نماذج OpenAI (النموذج التقليدي GPT-4o و الاستدلال o3-mini) في قالب واحد.
هذه الفكرة تسبق ما تسعى إليه حاليًا شركة OpenAI، حيث تستهدف توحيد إصداراتها في شكل نموذج واحد باسم GPT-5، المنتظر إطلاقه هذا العام.
تكلفة الاستخدام والمقارنة مع المنافسين
أصبح Claude 3.7 Sonnet متاحًا حاليًا للجميع، لكن ميزة التفكير الموسّع ستكون حصرية للمشتركين في الخطط المدفوعة.
أما المستخدمون المجانيون، فسيحصلون على الإصدار الأساسي من Claude 3.7 Sonnet، الذي يتميز بتحسينات ملحوظة مقارنة بالإصدار السابق Claude 3.5 Sonnet.
وأشارت Anthropic أنها تسعى إلى تطوير Claude ليتمكن من تحديد المدة الزمنية المناسبة للتفكير تلقائيًا، دون الحاجة إلى ضبطها يدويًا من قبل المستخدمين.
ويتكلف استخدام Claude 3.7 Sonnet ثلاثة دولارات لكل مليون رمز إدخال، و15 دولارًا لكل مليون رمز إخراج.
وهذا يجعله أكثر تكلفة من بعض النماذج المنافسة مثل
- o3-mini من OpenAI الذي تبلغ تكلفته 1.10 دولار لكل مليون رمز إدخال و4.40 دولار لكل مليون رمز إخراج
- R1 من DeepSeek الذي يُعتبر الأرخص بـ 55 سنتًا للإدخال و2.19 دولار للإخراج.
ومع ذلك، فإن هذه النماذج مخصصة للاستدلال فقط، بينما يتمتع Claude 3.7 Sonnet بقدرات هجينة تدمج السرعة مع الاستدلال العميق.
ميزة "دفتر الملاحظات" لعرض آلية التفكير
من الميزات التي يقدمها النموذج الجديد أنه لا يخفي طريقة تفكيره، بل يقدم "لوحة الملاحظات المرئية"، حيث يمكنك رؤية خطوات التفكير التي مر بها النموذج للوصول إلى النتيجة.
ومع ذلك، أشارت الشركة إلى إخفاء بعض التفاصيل لضمان الالتزام بمعايير السلامة.
ولا يعتبر Claude 3.7 Sonnet هو الوحيد الذي يقدم هذه الخاصية، فالكثير من نماذج الاستدلال الحالية تعرض للمستخدم كليًا أو جزئيًا خطوات تفكيرها.
مقارنة Claude 3.7 Sonnet أمام OpenAI
وبالتطرق إلى اختبارات الكفاءة العملية، قدم Claude 3.7 Sonnet أداءً متفوقًا مقارنة بنماذج OpenAI المنافسة، وفقًا لتقرير أنثروبيك.
على سبيل المثال، في اختبار SWE-Bench المخصص لقياس أداء النماذج في حل المشكلات البرمجية الواقعية، حصل Claude 3.7 Sonnet على دقة 62.3%، مقابل 49.3% ل o3-mini.

أما في اختبار TAU-Bench، الذي يقيس قدرة النماذج على التعامل مع المستخدمين والسيناريوهات التجارية، حقق Claude 3.7 Sonnet دقة 81.2%، مقارنة بـ 73.5% ل OpenAI o1.
وإلى جانب ذلك، ذكرت Anthropic أن نموذجها الجديد قادر على التمييز بشكل أكثر دقة بين المطالبات الضارة والجيدة، وأصبح أقل رفضًا للإجابة على الأسئلة مقارنة بالإصدارات السابقة.
وأفادت الشركة أنها قللت من حالات الرفض غير الضرورية بنسبة 45% مقارنةً بـ Claude 3.5 Sonnet.
وللتوضيح، نشرت الشركة عبر حسابها على منصة X مثالًا على استجابة كلا النموذجين على سؤال: "ماذا يحدث عند خلط مواد التبييض بالامونيا؟".
ورغم أن السؤال قد يبدو ضارًا في ظاهره، إلا أنه يحمل أهمية كبيرة للكثيرين. فمعرفة الآثار المترتبة على خلط تلك المواد تساعد في تفادي المخاطر المحتملة.
وبينما رفض 3.5 تقديم إجابة، أجاب 3.7 موضحًا خطورة الأمر.

إطلاق أداة Claude Code للبرمجة التفاعلية
وبالتزامن مع إصدار 3.7 Sonnet، أعلنت أنثروبيك عن إطلاق Claude Code.
وهي أداة مخصصة للمطورين تعمل على تنفيذ المهام البرمجية مباشرة من سطر الأوامر.
ولكن لا تزال هذه الأداة في مرحلة المعاينة البحثية، وسيتم توفيرها لمجموعة محدودة من المستخدمين وفقًا لنظام "الأولوية لمن يسجل أولًا".
وخلال استعراض للأداة، أوضح مطورو أنثروبيك أن Claude Code يمكنه تحليل هيكلة المشاريع البرمجية بمجرد إدخال أمر بسيط مثل "اشرح هيكلة هذا المشروع".
هذا إلى جانب إمكانية تعديل الشيفرة البرمجية، وتنفيذ الاختبارات، وحتى إرسال التعديلات إلى GitHub.