دخلت شاومي بثقة مجال نماذج اللغات الكبيرة مع MiMo-7B، أول نظام ذكاء اصطناعي مفتوح المصدر متاح للعامة. صُمم MiMo-7B بواسطة فريق Big Model Core المُشكّل حديثًا، ويركز تحديدًا على المهام التي تعتمد على التفكير المنطقي، ويتفوق على منافسيه من OpenAI وAlibaba في التفكير الرياضي وتوليد الشفرات.
كما يوحي الاسم، MiMo-7B هو نموذج ذو 7 مليارات مُعامل. على الرغم من صغر حجمه بشكل ملحوظ مقارنةً بمعظم برامج ماجستير القانون من الطراز الأول، تزعم شاومي أن أداءه يُضاهي الأنظمة الأكبر حجمًا، بما في ذلك o1-mini من OpenAI وQwen-32B-Preview من Alibaba. جميع الأنظمة الثلاثة قادرة على التفكير المنطقي بالذكاء الاصطناعي.
العمود الفقري لـ MiMo-7B من شاومي
يعتمد العمود الفقري لـ MiMo-7B على نظام تدريب مسبق دقيق. تقول شاومي إنها جمعت مجموعة بيانات كثيفة تضم 200 مليار رمز استدلال، وغذّت النموذج بـ 25 تريليون رمز إجمالاً على مدار ثلاث مراحل تدريب.
استخدمت الشركة أيضًا هدف تنبؤ متعدد الرموز بدلاً من التنبؤ بالرمز التالي القياسي، مدّعيةً أنه يُقصّر وقت الاستدلال دون المساس بجودة المخرجات.
تتضمن عملية ما بعد التدريب مزيجًا من تقنيات التعلم المعزز وتحسينات البنية التحتية. استخدمت شاومي خوارزمية مخصصة تُسمى “مكافأة صعوبة الاختبار” لمعالجة إشارات المكافأة المتفرقة التي غالبًا ما تُصيب مهام التعلم المعزز التي تتضمن خوارزميات معقدة. بالإضافة إلى ذلك، طبّقت شاومي طريقة إعادة أخذ العينات السهلة للبيانات لتحقيق استقرار التدريب.
من ناحية البنية التحتية، أنشأت الشركة نظام طرح سلس لتقليل وقت تعطل وحدة معالجة الرسومات (GPU) أثناء التدريب والتحقق. النتيجة، وفقًا لأرقامهم الداخلية على الأقل، هي تحسن في سرعة التدريب بمقدار 2.29 مرة، وزيادة في أداء التحقق بمقدار 2 مرة تقريبًا.
صُمم محرك الطرح أيضًا لدعم استراتيجيات الاستدلال مثل التنبؤ بالرموز المتعددة في بيئات vLLM.
MiMo-7B مفتوح المصدر الآن.
هناك أربعة إصدارات عامة من MiMo-7B:
الإصدار الأساسي: النموذج الخام المُدرّب مسبقًا.
SFT: إصدار مُحسّن ببيانات مُشرفة.
RL-Zero: نسخة مُعززة التعلم تبدأ من الإصدار الأساسي.
RL: نموذج مُحسّن مبني على إصدار SFT، ويُقال إنه يُوفر أعلى دقة.
لدى شاومي معايير أداء تدعم هذا الادعاء، نظريًا على الأقل. في الرياضيات، يُقال إن إصدار MiMo-7B-RL حقق نسبة 95.8% في MATH-500 وأكثر من 68% في مجموعة بيانات AIME لعام 2024. أما في البرمجة، فقد حقق نسبة 57.8% في LiveCodeBench v5 وأقل بقليل من 50% في الإصدار 6. كما تم تمثيل مهام المعرفة العامة الأوسع مثل DROP وMMLU-Pro وGPQA، على الرغم من أن الدرجات تتراوح بين منتصف الخمسينيات وأواخرها – وهي نسبة جيدة لطراز 7B، ولكنها ليست ثورية.
MiMo-7B متاح الآن على Hugging Face بموجب ترخيص مفتوح المصدر. في حين أنه يمكنك الاطلاع على جميع الوثائق الداعمة ونقاط التحقق من النموذج على GitHub.
يتفوق Xiaomi MiMo-7B على نموذج OpenAI وAlibaba في التفكير الرياضي (AIME 24-25) ومنافسة البرمجة (LiveCodeBench v5)