
Elon Musk est d'accord avec d'autres experts en IA qu'il reste peu de données du monde réel pour former les modèles d'IA.
« Nous avons maintenant essentiellement épuisé la somme cumulative des connaissances humaines ... en matière de formation en IA », a déclaré Musk lors d'une conversation diffusée en direct avec Mark Penn, président de Stagwell, diffusée sur X mercredi soir. « Cela s'est produit essentiellement l'année dernière. »
Musk, propriétaire de la société d'IA xAI, a répété les thèmes abordés par l'ancien scientifique en chef d'OpenAI, Ilya Sutskever, lors de NeurIPS, la conférence sur l'apprentissage automatique, lors d'une intervention en décembre. Sutskever, qui a déclaré que l'industrie de l'IA avait atteint ce qu'il appelait « le pic des données », a prédit qu'un manque de données d'entraînement obligerait un changement par rapport à la façon dont les modèles sont développés aujourd'hui.
En effet, Musk a suggéré que les données synthétiques - des données générées par les modèles d'IA eux-mêmes - sont la voie à suivre. « Le seul moyen de compléter [les données du monde réel] est avec des données synthétiques, où l'IA crée [des données d'entraînement] », a-t-il déclaré. « Avec des données synthétiques ... [l'IA] va en quelque sorte s'évaluer elle-même et passer par ce processus d'auto-apprentissage. »
D'autres entreprises, notamment des géants technologiques comme Microsoft, Meta, OpenAI et Anthropic, utilisent déjà des données synthétiques pour former leurs modèles d'IA phares. Gartner estime que 60 % des données utilisées pour les projets d'IA et d'analyse en 2024 ont été générées de manière synthétique.
Le Phi-4 de Microsoft, qui a été mis en open source tôt mercredi, a été entraîné sur des données synthétiques ainsi que des données du monde réel. Les modèles Gemma de Google ont également été formés de cette manière. Anthropic a utilisé certaines données synthétiques pour développer l'un de ses systèmes les plus performants, Claude 3.5 Sonnet. Et Meta a peaufiné sa série de modèles la plus récente, Llama, en utilisant des données générées par l'IA.
L'entraînement sur des données synthétiques présente d'autres avantages, comme des économies de coûts. La startup d'IA Writer affirme que son modèle Palmyra X 004, développé en utilisant presque exclusivement des sources synthétiques, n'a coûté que 700 000 dollars à développer - comparé à des estimations de 4,6 millions de dollars pour un modèle OpenAI de taille comparable.
Mais il y a aussi des inconvénients. Certunes recherches suggerent que les données synthétiques peuvent entraîner un effondrement du modèle, où un modèle devient moins « créatif » - et plus biaisé - dans ses résultats, compromettant eventually sérieusement sa fonctionnalité. Étant donné que les modèles créent des données synthétiques, si les données utilisées pour entraîner ces modèles sont biaisées et limitées, leurs résultats seront également contaminés de la même manière.