Wie Datenknappheit die Zukunft der künstlichen Intelligenz bedroht
Die Welt der künstlichen Intelligenz leidet unter einem Mangel an ihrem wertvollsten Rohstoff – Daten. Dies hat Diskussionen über eine immer beliebtere Alternative ausgelöst: synthetische oder sogar „gefälschte“ Daten. Seit Jahren schürfen Unternehmen wie OpenAI und Google Daten aus dem Internet, um die großen Sprachmodelle (LLMs) zu trainieren, die ihre KI-Lösungen antreiben. Diese Modelle verarbeiten riesige Mengen menschengenerierter Inhalte, von Forschungsarbeiten und Romanen bis hin zu YouTube-Videos.
Nun gehen diese Daten langsam zur Neige, ihre Menge wird immer begrenzter. Bestimmte große Akteure auf diesem Gebiet, wie etwa OpenAI-Direktor Sam Altman, glauben, dass selbstlernende Modelle in der Lage sein werden, synthetische Daten zu nutzen, was eine kostengünstige und nahezu unbegrenzte Datenquelle darstellen würde.
Forscher warnen jedoch vor Risiken. Synthetische Daten könnten die Qualität der Modelle mindern, da sie mit eigenen Fehlern „vergiftet“ sein können. Forschung der Universitäten Oxford und Cambridge zeigten, dass die ausschließliche Fütterung von Modellen mit synthetischen Daten zu schlechten Ergebnissen und „Unsinn“ führt. Ihrer Meinung nach ist eine ausgewogene Verwendung von synthetischen und realen Daten entscheidend.
Immer mehr Unternehmen erstellen synthetische Daten
Der Mangel an Daten führt dazu, dass Unternehmen nach Alternativen suchen, beispielsweise nach synthetischen Daten, die von UI-Systemen auf der Grundlage realer Daten generiert werden. Technologieunternehmen, darunter unter anderem OpenAI und Google, zahlen bereits Millionen für den Zugriff auf Daten von Plattformen wie Reddit und verschiedenen Medienhäusern, da Websites die kostenlose Nutzung ihrer Inhalte zunehmend einschränken. Allerdings sind die Ressourcen begrenzt.
Nvidia, Tencent und die Startups Gretel und SynthLabs entwickeln Tools zur Erstellung synthetischer Daten, die oft sauberer und spezifischer sind als von Menschen generierte Daten. Mit Llama 3.1 nutzte Meta synthetische Daten, um Fähigkeiten wie Programmieren und Lösen mathematischer Probleme zu verbessern. Synthetische Daten bieten auch die Möglichkeit, die Verzerrung realer Daten zu verringern, obwohl Forscher warnen, dass die Gewährleistung von Genauigkeit und Unparteilichkeit weiterhin eine große Herausforderung darstellt.
Künstliche Intelligenz „Habsburg“
Synthetische Daten bringen zwar Vorteile mit sich, bergen aber auch ernsthafte Risiken. Metaforschung zum Llama 3.1-Modell zeigte, dass das Training eines Modells mit seinen eigenen synthetischen Daten dessen Leistung tatsächlich beeinträchtigen kann. Ebenso Studie in der Zeitschrift Nature warnte, dass die unkontrollierte Verwendung synthetischer Daten zu einem „Modellkollaps“ führe, den die Forscher mit genetischer Degeneration verglichen und das Phänomen symbolisch „Habsburger künstliche Intelligenz“ nannten. Ein Begriff, der vom Forscher Jathan Sadowski geprägt wurde.
Die Hauptfrage bleibt: Wie viele synthetische Daten sind zu viel? Einige Experten schlagen die Verwendung von Hybriddaten vor, bei denen synthetische Daten mit realen Daten kombiniert werden, um eine Verschlechterung des Modells zu verhindern. Unternehmen wie Scale AI erforschen diesen Ansatz, und CEO Alexandr Wang ist überzeugt, dass der Hybridansatz „die wahre Zukunft“ ist.
Neue Lösungen finden
Im Januar stellte Google DeepMind AlphaGeometry vor, ein System, das geometrische Probleme auf extrem hohem Niveau mithilfe eines „neurosymbolischen“ Ansatzes löst. Es kombiniert die Vorteile von datenintensivem Deep Learning und regelbasiertem Denken. Das Modell wurde vollständig mit synthetischen Daten trainiert und gilt als potenzieller Schritt in Richtung künstlicher allgemeiner Intelligenz.
Das neurosymbolische Feld ist noch jung, könnte aber eine vielversprechende Richtung für die Zukunft der Entwicklung künstlicher Intelligenz bieten. Unter dem Druck der Monetarisierung werden Unternehmen wie OpenAI, Google und Microsoft alle möglichen Lösungen ausprobieren, um die Datenkrise zu überwinden.


























