Microsoft présente Phi-2, un modèle révolutionnaire doté de 2,7 milliards de paramètres
Microsoft franchit un nouveau cap dans l’intelligence artificielle avec son modèle de langue Phi-2, doté de 2,7 milliards de paramètres. Ce modèle innovant redéfinit les normes de compréhension et de raisonnement linguistique, notamment parmi les modèles de moins de 13 milliards de paramètres.
S’inscrivant dans la lignée de ses prédécesseurs, Phi-1 et Phi-1.5, Phi-2 égale ou surpasse des modèles jusqu’à 25 fois plus volumineux. Cette prouesse est le fruit d’innovations dans les techniques de mise à l’échelle et la curation minutieuse des données d’entraînement.
La taille relativement compacte de Phi-2 en fait un outil de recherche idéal, ouvrant la voie à l’exploration approfondie de l’interprétabilité mécanique, l’amélioration de la sécurité, et la finesse de réglage sur diverses tâches.
Le succès de Phi-2 repose sur deux éléments clés :
1. Qualité des données d’entraînement :
Microsoft souligne l’importance cruciale des données d’entraînement de haute qualité pour la performance du modèle. Phi-2 utilise des données de “qualité manuelle”, axées sur des ensembles de données synthétiques conçus pour développer le raisonnement de bon sens et la connaissance générale. Le corpus est enrichi de données web sélectionnées pour leur valeur éducative et la qualité du contenu.
2. Techniques de mise à l’échelle innovantes :
Partant de son prédécesseur, Phi-1.5, Microsoft a mis en œuvre des techniques de mise à l’échelle novatrices. Le transfert de connaissances à partir du modèle à 1,3 milliard de paramètres accélère la convergence de l’entraînement, entraînant une amélioration significative des scores de référence.
Évaluation des performances
Phi-2 a été soumis à des évaluations rigoureuses sur divers benchmarks, y compris Big Bench Hard, le raisonnement de bon sens, la compréhension du langage, les mathématiques et la programmation.
Avec seulement 2,7 milliards de paramètres, Phi-2 dépasse des modèles plus volumineux, tels que Mistral et Llama-2, et égale ou surpasse le récent Gemini Nano 2 de Google :
Dans des scénarios du monde réel, Phi-2 démontre ses capacités. Des tests avec des invites couramment utilisées par la communauté de recherche révèlent l’expertise de Phi-2 dans la résolution de problèmes physiques et la correction d’erreurs d’étudiants, mettant en lumière sa polyvalence au-delà des évaluations standards.
Phi-2 est un modèle basé sur l’architecture des Transformers, entraîné sur 1,4 trillion de tokens issus d’ensembles de données synthétiques et web. Le processus d’entraînement, réalisé sur 96 GPU A100 pendant 14 jours, vise à maintenir un niveau élevé de sécurité et prétend surpasser les modèles open-source en termes de réduction de toxicité et de biais.
Avec l’annonce de Phi-2, Microsoft continue de repousser les frontières de ce que peuvent réaliser les modèles de base de langage plus compacts.