Software
26.09.2023 17:48

Mit anderen teilen:

Aktie

ChatGPT versteht jetzt auch Bilder und Sprachbefehle

ChatGPT versteht jetzt auch Bilder und Sprachbefehle

Der ChatGPT-Chatbot wird von OpenAI ständig verbessert. Mit der neuen Version können Benutzer ChatGPT auch mit Sprache und Bildern aktivieren, was neue Fragen und Bedenken aufwirft. Was bringt die neue Version und wann?

Die meisten Änderungen, die OpenAI an ChatGPT vornimmt, betreffen die Fähigkeiten des KI-gestützten Bots: welche Fragen er beantworten kann, auf welche Informationen er zugreifen kann usw. Dieses Mal ändert sich aber auch die Art und Weise, wie Sie ChatGPT selbst nutzen. Das Unternehmen führt eine neue Version des Dienstes ein, mit der Sie nicht nur durch Eingabe von Sätzen in ein Textfeld, sondern auch per Spracheingabe oder durch Hochladen eines Bildes mit dem KI-Bot interagieren können. Die neuen Funktionen stehen Plus-Abonnenten in den kommenden Wochen zur Verfügung, alle anderen erhalten sie „kurz darauf“.

Die Sprachsteuerung ist nichts Bahnbrechendes: Man tippt auf einen Button, spricht seine Frage, ChatGPT wandelt sie in Text um, speist sie in ein großes Sprachmodell ein, ermittelt die Antwort, wandelt sie wieder in Sprache um und gibt sie mündlich zurück. Es sollte ähnlich funktionieren wie die Kommunikation mit Alexa oder dem Google Assistant, nur dass – so hofft OpenAI – die Antworten dank verbesserter Technologie präziser sein werden. Die meisten virtuellen Assistenten scheinen derzeit ihre Systeme um große Sprachmodelle zu erweitern – und OpenAI ist hier momentan führend.

OpenAIs hervorragendes Whisper-Modell übernimmt einen Großteil der Spracherkennung, und das Unternehmen stellt außerdem ein neues Text-zu-Sprache-Modell vor, das laut Herstellerangaben „aus Text und wenigen Sekunden Sprachbeispielen menschenähnliche Klänge“ erzeugen kann. Für ChatGPT stehen fünf Stimmen zur Auswahl, doch OpenAI ist überzeugt, dass das Modell noch viel mehr Potenzial besitzt. So arbeitet OpenAI beispielsweise mit Spotify zusammen, um Podcasts in andere Sprachen zu übersetzen und dabei die Stimme des jeweiligen Sprechers zu erhalten. Synthetische Stimmen bieten viele interessante Anwendungsmöglichkeiten, und OpenAI könnte in diesem Bereich eine wichtige Rolle spielen.

Ungeachtet dessen eröffnet die Möglichkeit, mit nur wenigen Sekunden Audioaufnahme eine überzeugende synthetische Stimme zu erzeugen, eine Vielzahl potenziell problematischer Anwendungsfälle. „Diese Funktionen bergen neue Gefahren, beispielsweise die Gefahr, dass sich Angreifer als Persönlichkeiten des öffentlichen Lebens ausgeben“, schrieb das Unternehmen in einem Blogbeitrag zur Ankündigung der neuen Funktionen. Aus diesem Grund ist das Modell nicht allgemein verfügbar und wird strenger kontrolliert und auf spezifische Anwendungsfälle und Partnerschaften beschränkt sein.

Die Bildsuchfunktion ähnelt in gewisser Weise der von Google Lens. Sie machen ein Foto und ChatGPT versucht zu verstehen, was Sie fragen, und reagiert entsprechend. Sie können auch das Zeichentool in der App verwenden, um die Frage so klar wie möglich zu formulieren, oder Fragen zum Bild sprechen oder eingeben. Hier kommt die Natur von ChatGPT besonders zum Tragen: Anstatt eine Suche durchzuführen, die falsche Antwort zu erhalten und dann eine neue Suche durchzuführen, können Sie den Bot anstoßen und die Antwort während des Vorgangs verfeinern. Dies ist sehr ähnlich zu dem, was Google mit der multimodalen Suche macht.

Die Einbindung von Bildern in ChatGPT hat natürlich auch Nachteile. Einer davon tritt auf, wenn man ChatGPT auf eine Person anwendet: OpenAI gibt an, die Fähigkeit von ChatGPT, Personen zu analysieren und direkte Aussagen über sie zu treffen, bewusst eingeschränkt zu haben – sowohl aus Gründen der Genauigkeit als auch des Datenschutzes. Das bedeutet, dass eine der futuristischsten Visionen künstlicher Intelligenz – die Fähigkeit, jemanden anzusehen und seine Identität zu erkennen – so schnell nicht Realität werden wird. Was vermutlich auch gut so ist.

Fast ein Jahr nach der Blütezeit von ChatGPT versucht OpenAI offenbar immer noch herauszufinden, wie es seinem Modell mehr Funktionen und Fähigkeiten verleihen kann, ohne neue Probleme und Nachteile zu schaffen. Bei Neuveröffentlichungen hat das Unternehmen versucht, diesen schmalen Grat zu beschreiten, indem es die Möglichkeiten seiner neuen Modelle bewusst einschränkte. Tatsache ist jedoch, dass dieser Ansatz nicht immer funktionieren wird. Da immer mehr Menschen Sprachsteuerung und Bildsuche nutzen und ChatGPT immer mehr zu einem wirklich multimodalen, nützlichen virtuellen Assistenten wird, wird es immer schwieriger, alle diese Schutzmaßnahmen einzuhalten.


Interessiert an mehr zu diesem Thema?
ChatGPT künstliche Intelligenz


Was lesen andere?

_Rahmen('