Comment la rareté des données menace l’avenir de l’intelligence artificielle
Le monde de l'intelligence artificielle est confronté à une pénurie de sa matière première la plus précieuse : les données. Cette situation a suscité des discussions sur une alternative de plus en plus populaire : les données synthétiques, voire « fausses ». Depuis des années, des entreprises comme OpenAI et Google exploitent les données d'Internet pour entraîner les grands modèles de langage (LLM) qui alimentent leurs solutions d'IA. Ces modèles ont assimilé d'énormes quantités de contenu généré par l'homme, des articles de recherche aux romans en passant par les vidéos YouTube.
Or ces données s’épuisent peu à peu, leur quantité devient de plus en plus limitée. Certains acteurs majeurs du domaine, comme le directeur d'OpenAI, Sam Altman, estiment que les modèles d'auto-apprentissage pourront utiliser des données synthétiques, ce qui constituerait une source de données bon marché et quasiment infinie.
Cependant, les chercheurs mettent en garde contre les risques. Les données synthétiques pourraient réduire la qualité des modèles, car elles peuvent être « empoisonnées » par leurs propres erreurs. Recherches menées par les universités d'Oxford et de Cambridge Ils ont montré que l'utilisation exclusive de données synthétiques pour alimenter les modèles produit des résultats médiocres et des résultats insensés. Selon eux, une utilisation équilibrée de données synthétiques et réelles est essentielle.
De plus en plus d'entreprises créent des données synthétiques
Le manque de données conduit les entreprises à rechercher des alternatives, comme les données synthétiques générées par les systèmes d’assurance-chômage basées sur des données réelles. Les entreprises technologiques, dont OpenAI et Google, entre autres, paient déjà des millions pour accéder aux données de plateformes comme Reddit et de diverses sociétés de médias, alors que les sites Web restreignent de plus en plus la libre utilisation de leur contenu. Cependant, les ressources sont limitées.
Nvidia, Tencent et les startups Gretel et SynthLabs développent des outils pour créer des données synthétiques souvent plus propres et plus spécifiques que les données générées par l'homme. Avec Llama 3.1, Meta a utilisé des données synthétiques pour améliorer des compétences telles que la programmation et la résolution de problèmes mathématiques. Les données synthétiques offrent également la possibilité de réduire les biais inhérents aux données réelles, même si les chercheurs préviennent que garantir l’exactitude et l’impartialité reste un défi majeur.
L'intelligence artificielle « Habsbourg »
Bien que les données synthétiques présentent des avantages, elles présentent également de sérieux risques. Méta-recherche sur le modèle Llama 3.1 a montré que l'entraînement d'un modèle sur ses propres données synthétiques peut en réalité dégrader les performances. De même, étude dans la revue Nature Les chercheurs ont averti que l'utilisation incontrôlée de données synthétiques conduit à un « effondrement des modèles », que les chercheurs ont comparé à une dégénérescence génétique et ont symboliquement appelé le phénomène « intelligence artificielle des Habsbourg ». Un terme inventé par le chercheur Jathan Sadowski.
La question principale demeure : quelle quantité de données synthétiques est excessive ? Certains experts suggèrent d'utiliser des données hybrides, combinant données synthétiques et données réelles pour éviter la dégradation des modèles. Des entreprises comme Scale AI explorent cette approche, et leur PDG, Alexandr Wang, estime que l'approche hybride représente « l'avenir ».
Trouver de nouvelles solutions
En janvier, Google DeepMind a dévoilé AlphaGeometry, un système capable de résoudre des problèmes géométriques à un niveau extrêmement élevé grâce à une approche « neuro-symbolique ». Il combine les avantages de l'apprentissage profond, gourmand en données, et du raisonnement basé sur des règles. Entièrement entraîné sur des données synthétiques, le modèle est considéré comme une avancée potentielle vers l'intelligence artificielle générale.
Le domaine neuro-symbolique est encore jeune, mais il pourrait offrir une direction prometteuse pour l’avenir du développement de l’intelligence artificielle. Sous la pression de la monétisation, des entreprises comme OpenAI, Google et Microsoft tenteront toutes les solutions possibles pour surmonter la crise des données.
























