مايكروسوفت تقدم Phi-2، وهو نموذج ثوري مع 2.7 مليار معامل
مايكروسوفت تصل إلى علامة فارقة جديدة في الذكاء الاصطناعي مع نموذج لغة فاي 2، الذي يحتوي على 2.7 مليار معامل. يعيد هذا النموذج المبتكر تعريف معايير الفهم اللغوي والمنطق، خاصة بين النماذج التي تحتوي على أقل من 13 مليار مؤشر.
تمشيا مع سابقاتها، Phi-1 و Phi-1.5، فإن Phi-2 يساوي أو يتجاوز النماذج التي تصل إلى 25 مرة أكبر. هذا الإنجاز هو نتيجة للابتكارات في تقنيات التوسع والتنظيم الدقيق لبيانات التدريب.
الحجم الصغير نسبيا لـ Phi-2 يجعله أداة بحث مثالية، مما يمهد الطريق لاستكشاف متعمق للتفسير الميكانيكي، وتحسين السلامة، وضبط المهام المختلفة.
يعتمد نجاح Phi-2 على عنصرين رئيسيين:
1 – جودة بيانات التدريب:
تؤكد Microsoft على الأهمية الحاسمة لبيانات التدريب عالية الجودة لأداء النموذج. يستخدم Phi-2 بيانات “الجودة اليدوية”، التي تركز على مجموعات البيانات الاصطناعية المصممة لتطوير المنطق السليم والمعرفة العامة. يتم إثراء الجسم ببيانات الويب المختارة لقيمتها التعليمية وجودة المحتوى.
2 – تقنيات التوسع المبتكرة:
بناء على سابقتها، Phi-1.5، نفذت Microsoft تقنيات التحجيم المبتكرة. ويؤدي نقل المعرفة من نموذج البارامترات البالغ 1.3 مليار إلى تسريع التقارب في التدريب، مما يؤدي إلى تحسن كبير في درجات خط الأساس.
تقييم الأداء
قد خضع فاي-2 لتقييمات صارمة على مختلف المعايير، بما في ذلك Big Bench Hard، المنطق السليم، فهم اللغة والرياضيات و كذا البرمجة.
مع 2.7 مليار معامل فقط، يتفوق Phi-2 على النماذج الأكبر، مثل Mistral و Llama-2، ويعادل أو يتجاوز Gemini Nano 2 الأخير من Google :
في سيناريوهات العالم الحقيقي، يبرز برنامج Phi-2 قدراته. تكشف اختبارات مجتمع الأبحاث عن خبرة Phi-2 في حل المشكلات الجسدية وتصحيح أخطاء الطلاب، وتسليط الضوء على تنوعها بما يتجاوز التقييمات القياسية.
Phi-2 هو نموذج يستند إلى بنية Transformers، تم تدريبه على 1.4 تريليون رمز من مجموعات البيانات الاصطناعية والويب. تهدف عملية التدريب، التي أجريت على 96 وحدة معالجة الرسومات A100 لمدة 14 يوما، إلى الحفاظ على مستوى عال من الأمان والمطالبة بتجاوز النماذج مفتوحة المصدر من حيث تقليل التحيز.
مع إطلاق Phi-2، تواصل شركة Microsoft استكشاف آفاق جديدة في قدرات نماذج اللغة الأساسية الأكثر إحكاما.