أداء ضعيف للإصدار الأصلي من نموذج "Maverick" بعد اتهام "ميتا" بالغش

استخدمت الشركة نموذج مُعدل في اختبار أداء بدلًا من النسخة الأصلية

المصدر: الرياض - العربية Business
نشر في: آخر تحديث:
وضع القراءة
100% حجم الخط
دقيقتان للقراءة

واجهت شركة "ميتا" الأسبوع الماضي مشكلة كبيرة لاستخدامها نسخة تجريبية لم تصدرها من نموذجها الجديدة "Llama 4 Maverick" لتحقيق مستوى متقدم في اختبار "LM Arena" للأداء.

ودفع هذا الأمر القائمين على منصة اختبار "LM Arena" إلى الاعتذار وتغيير سياساتهم وتقييم نموذج "Maverick" الأصلي غير المعدل.

والآن، أثبت الاختبار أن نموذج "Maverick" الأصلي غير المعدل ليس منافسًا قويًا، مثلما أظهرت نتائج اختبار النسخة المعدلة سابقًا، بحسب تقرير لموقع "TechCrunch" المتخصص في أخبار التكنولوجيا، اطلعت عليه "العربية Business".

وكان أداء نموذج "Maverick" غير المُعدّل أقل من نماذج أخرى، بما في ذلك "GPT-4o" من شركة "OpenAI"، و"Claude 3.5 Sonnet" من شركة أنثروبيك، و"Gemini 1.5 Pro" من "غوغل".

لكن قد يكون هناك تفسيرًا لهذا الأداء الضعيف للنسخة غير المعدلة من نموذج "Maverick".

وكانت شركة ميتا قالت يوم السبت الماضي إن نموذج "Maverick" التجريبي المُعدل -ويحمل اسم "Llama-4-Maverick-03-26-Experimental"- "مُحسن للمحادثة".

ويبدو أن هذه التحسينات كانت فعالة على منصة "LM Arena" حيث يجري مقيمون بشريون مقارنة لردود نماذج الذكاء الاصطناعي ويختارون أيًا من تلك النماذج يفضلونه.

ولا تُعتبر منصة "LM Arena" المقياس الأكثر موثوقية لأداء نموذج ذكاء اصطناعي. علاوة على ذلك، فإنّ تخصيص نموذج ذكاء اصطناعي لاختبار -بخلاف كونه أمرًا مُضلّلًا- فإنه يُصعّب على المُطوّرين التنبؤ بدقة بمدى جودة أداء النموذج في سياقات مُختلفة.

وقال متحدث باسم "ميتا"، في بيان لموقع "TechCrunch"، إن "Llama-4-Maverick-03-26-Experimental هو نسخة مُحسّنة للمحادثة اختبرناها، وتؤدي جيدًا أيضًا على (منصة) LMArena".

وأضاف: "لقد أصدرنا الآن نسختنا مفتوحة المصدر وسنرى كيف يُخصّص المُطوّرون Llama 4 لحالات استخدامهم الخاصة".

الأكثر قراءة مواضيع شائعة

تم اختيار مواضيع "العربية" الأكثر قراءة بناءً على إجمالي عدد المشاهدات اليومية. اقرأ المواضيع الأكثر شعبية كل يوم من هنا.

  • وضع القراءة
    100% حجم الخط