ميزات وأدوات جديدة للصوت من جوجل وOpenAI، وتطبيقات للصور والفيديو

Meissonic نموذج جديد مفتوح المصدر لتوليد الصور

إنشاء صورة لشاب بالذكاء الاصطناعي باستخدام أداة Meissonic من MissionFlow

صممت MeissonFlow نموذج Meissonic لإنشاء صور عالية الجودة بسرعة وكفاءة، والذي يأتي بحجم مليار معلمة فقط.

الأمر الذي يجعله مناسبًا للاستخدام على أجهزة الكمبيوتر المخصصة للألعاب العادية، على عكس العديد من النماذج الأخرى التي تتطلب قوة حوسبة كبيرة.

ويمكنك تجربته الآن عبر منصة Hugging Face.

OpenAI تعلن عن GPT-4o-Audio-Preview

كشفت «أوبن إيه آي» عن نموذج جديد باسم GPT-4O-Audio-Preview.

ويتميز هذا الإصدار -بالإضافة إلى توليد استجابات صوتية طبيعية وسلسة- بأنه لديه القدرة على تحليل العواطف والنغمات والطبقات في الصوت.

و هذه الميزة تجعل استخدامه مفيدًا جدًا في المساعدات الصوتية وخدمة العملاء الافتراضية، وبناء أنظمة تفاعل صوتي أكثر تقدمًا.

Hallo2: توليد مقاطع فيديو عالية الجودة تصل إلى ساعة

طورت جامعة فودان وشركة بايدو تطبيق Hallo2 لإنشاء مقاطع فيديو طويلة بدقة 4K Ultra HD.

ويهدف هذا التطبيق إلى إحداث ثورة في توليد الشخصيات المتحركة و إنتاج الأفلام و تطوير الألعاب.

عرض لقدرات Hallo 2 في توليد رسوم متحركة لصور شخصية بدقة 4K لمدة طويلة من خلال الصوت.

كما يتميز باستخدامه تقنيات متقدمة مثل «Patch-drop» لتحسين جودة البيانات و «VQGAN» للتنبؤ وانشاء صور تفصيلية.

وهذا بالإضافة إلى «Gaussian Noise Optimization» الذي يحسن وضوح وجودة الصور المولدة وإزالة الضوضاء، وإمكانية التحكم في إدخال النصوص، وقدرته علي انتاج فيديوهات طويلة قد تصل مدتها الى ساعة.

تحديثات Google لـ NotebookLM و إعادة هيكلة القيادة والفرق

قامت Google بتحسين تطبيقها لتدوين الملاحظات المدعوم بالذكاء الاصطناعي NotebookLM، وذلك من خلال ميزة الملخص الصوتي «Note-Taking and Research Assistant».

وهو الأمر الذي سيسمح للمستخدمين بتوجيه الذكاء الاصطناعي بشكل أفضل في إنشاء المحادثات.

كما تشمل الميزات الجديدة ملخصات صوتية مخصصة وقدرة على الاستماع في الخلفية، وهو ما يجعلنا نستمع إلى الصوت أثناء العمل على مهام أخرى.

ومن الواضح أن الشركة تعمل بجدية على تطوير تقنيات الأصوات في التطبيق، منذ إطلاق أداة Audio Overview الشهر الماضي.

وفي سياق آخر، قامت جوجل بتغييرات كبيرة في هيكلة الفريق، حيث تم دمج فريق Gemini في DeepMind.

و شملت التغييرات أيضًا تولى نيك فوكس قيادة فريق K&I، مع التركيز على تطوير المنتجات المتعلقة بالبحث والإعلانات والتجارة.

كما أصبح «برابهكار راغافان» كبير المسؤولين التقنيين في Google.

NVIDIA تطلق Llama-3.1-Nemotron-70B-Instruct مفتوح المصدر

نموذج الذكاء الاصطناعي Llama-3.1-Nemotron-70B-Instruct من Nvidia بالتعاون مع Meta

طورت الشركة الرائدة بوحدات معالجة الرسوميات (GPUs) الخاصة بها نموذج Llama-3.1-Nemotron-70B-Instruct، والذي جذب انتباه الكثيرين في صناعة التكنولوجيا.

وذلك نظرا لتفوقه علي نماذج معروفة مثل GPT-4o من OpenAI وClaude 3.5 من Anthropic.

وقد حقق النموذج أعلي الدرجات في العديد من الاختبارات المعيارية وفقًا لتقرير الشركة.

على سبيل المثال، تفوق في اختبار Arena Hard بنسبة 85، بينما حقق 8.98 في GPT-4-Turbo MT-Bench، و57.6 في AlpacaEval2LC.

ومع ذلك، نوهت الشركة إلى الحذر عند استخدامه في مجالات متخصصة مثل الرياضيات أو القانون لتجنب الأخطاء.

تعرف على Llama-3.1-Nemotron-70B، وكيف تستخدمه مجانًا.

ميزات وأدوات جديدة للصوت من جوجل وOpenAI، وتطبيقات للصور والفيديو

Meissonic نموذج جديد مفتوح المصدر لتوليد الصور

OpenAI تعلن عن GPT-4o-Audio-Preview

Hallo2: توليد مقاطع فيديو عالية الجودة تصل إلى ساعة

تحديثات Google لـ NotebookLM و إعادة هيكلة القيادة والفرق

NVIDIA تطلق Llama-3.1-Nemotron-70B-Instruct مفتوح المصدر

مقالات ذات صلة

15 برومبت جاهز لتحويل صورك إلى مشاهد شتوية ساحرة

تنزيلات OpenAI Sora للأندرويد تتجاوز 470 ألف في اليوم الأول

تسريبات نانو بنانا 2: ميزات ثورية وتقنيات جديدة مع موعد الإطلاق المنتظر

تعرّف على Affinity من Canva: تجربة تصميم احترافية مجانية وسهلة الاستخدام للجميع

التعليقات

لا توجد تعليقات بعد