ChatGPT Voice: Eine Revolution in der Interaktion mit KI

Kategorie:
Weiterempfehlen:

OpenAI hat kürzlich eine aufsehenerregende Erweiterung für ChatGPT veröffentlicht: die Voice-Option. Diese Innovation ermöglicht es Nutzern, mittels Spracheingabe mit ChatGPT zu interagieren, wobei die Antworten des Bots nun auch in gesprochener Form erfolgen können. Ursprünglich war dieses Feature nur für Plus- und Enterprise-Kunden verfügbar, aber jetzt ist es für alle User der frei zugänglichen App zugänglich gemacht worden​​​​.

 

Die Nutzung von ChatGPT Voice ist intuitiv gestaltet. Man muss lediglich die Sprachoption in den Einstellungen unter dem Punkt „neue Funktionen“ aktivieren. Sobald dies geschehen ist, erscheint in den Chatverläufen ein Kopfhörer-Icon, das signalisiert, dass die KI bereit ist, zuzuhören. Die Aufnahme einer Frage wird durch vier kleine Kreise visualisiert, die sich schwingungsartig bewegen, ähnlich wie bei Tonaufnahmegeräten​​​​.

 

Besonders interessant ist die Auswahl an Stimmen, die ChatGPT Voice bietet. Nutzer können zwischen fünf verschiedenen synthetischen Stimmen wählen, von denen drei weiblich und zwei männlich klingen. Diese Stimmen sind bewusst so gestaltet, dass sie möglichst natürlich und menschenähnlich klingen. Standardmäßig erfolgt die Antwort der KI in amerikanischem Englisch, aber es sind auch Übersetzungen in andere Sprachen, einschließlich Deutsch, verfügbar​​.

 

Ein Beispiel für die Funktionsweise von ChatGPT Voice zeigt, wie nahe die Sprachoption am gewohnten Chat-Modus liegt. In einem Demovideo wird ChatGPT Voice gefragt, wie viele Pizzen für eine Gruppe von 778 Personen benötigt werden. Die Antwort des Bots, basierend auf Berechnungen und statistischen Wahrscheinlichkeiten, lautet 195 Pizzen, ausgehend von drei Stücken pro Person. Nach der Antwort erkundigt sich die Stimme, ob weitere Informationen zur kulinarischen Versorgung großer Gruppen gewünscht sind​​.

 

Technisch basiert ChatGPT Voice auf zwei wesentlichen Schritten. Zunächst wandelt das Spracherkennungstool Whisper gesprochene Sprache in Text um, den der Chatbot dann wie gewohnt verarbeitet. In einem zweiten Schritt wird der vom Bot gelieferte Text wieder in Sprache umgewandelt. Dies geschieht mit Hilfe eines neuen Modells, das aus einem Text und einer kurzen Sprachprobe eine menschenähnliche Stimme generieren kann. Für die fünf verfügbaren Stimmen hat OpenAI professionelle Sprecherinnen und Sprecher engagiert. In Zukunft könnte es sogar möglich sein, eigene Stimmen für den Sprach-Bot zu erstellen​​​​.

 

Diese Entwicklungen markieren einen bedeutenden Schritt in der Evolution von Chatbots und KI-basierter Kommunikation. Mit ChatGPT Voice wird die Interaktion zwischen Mensch und Maschine noch natürlicher und intuitiver, was ein breites Spektrum an Anwendungsmöglichkeiten in verschiedenen Bereichen wie Bildung, Unterhaltung und Kundenservice eröffnet.

 

Mehr zum Thema ChatGPT?

ChatGPT fragt