Microsoft hat VALL-E entwickelt – ein Text-to-Speech-KI-Modell, das jede Stimme nachahmt, indem es sich einfach ein 3-sekündiges Audiobeispiel anhört.
Bevor Sie weiterlesen, möchte ich das klarstellen VALL-E unterscheidet sich von WALL-E. Obwohl einige von uns beide Wörter genau gleich aussprechen würden, gibt es einen großen Unterschied zwischen den beiden. WALL-E ist eine Disney-Pixar-Animation aus dem Jahr 2008, die einen niedlichen und freundlichen KI-Roboter beinhaltet.Der KI-Faktor ist in der Tat eine Ähnlichkeit zwischen VALL-E und WALL- E.
Was wissen wir über VALL-E?
Technisch gesehen bezeichnet Microsoft VALL-E als „Neural Codec Language Model“. Einfacher ausgedrückt ist VALL-E ein KI-Modell, das Audio aus Texteingaben generieren und die Stimme jedes bereitgestellten Audiobeispiels nachahmen kann. Durch das Abhören einer Stimmprobe von nur drei Sekunden kann jede beliebige Stimme imitiert werden. VALL-E ist noch nicht allgemein für die breite Öffentlichkeit zugänglich. Es passt nicht nur zur Stimme, sondern auch zur Stimmung und Akustik des Raumes. Es gibt moralische Probleme damit, obwohl es auf viele nützliche Arten angewendet werden kann.
Trainingsmodelle –
Forscher geben an, VALL-E an 60.000 Stunden englischsprachiger Personen trainiert zu haben, verglichen mit mehr als 7.000 Personen in der LibriLight-Audiobibliothek von Meta. Die Stimme des Zielsprechers muss den Trainingsdaten sehr ähnlich sein, um nachgeahmt zu werden. Auf diese Weise kann der Al sein „Training“ nutzen, um zu versuchen, die Stimme des Zielsprechers nachzuahmen.
Emotionen imitieren –
Es sollte betont werden, dass das Al-Modell neben Tonhöhe, Klangfarbe und Textur auch die Akustik des Raumes sowie den emotionalen Ton des Sprechers simulieren kann. Daher ahmt VALL-E die Zielstimme nach, als ob sie gestört wäre, wenn die Zielstimme eine Störung hätte.
Laut dem Forschungsteam von Microsoft „zeigen die Ergebnisse der Experimente, dass VALL-E eine viel bessere Leistung erbringt.“ in Bezug auf Sprachnatürlichkeit und Sprecherähnlichkeit als das fortschrittlichste Zero-Shot-TTS-System. Darüber hinaus entdecken wir, dass VALL-E die Emotionen des Sprechers und den akustischen Kontext der akustischen Aufforderung während der Synthese beibehalten könnte.
Bedrohungen –
The Al Das Modell kann auf Robotik, Medienproduktion und benutzerdefinierte Text-to-Speech-Anwendungen angewendet werden. Bei unsachgemäßer Verwendung kann jedoch eine Gefahr entstehen. Das Unternehmen warnte dass das Modell missbraucht werden könnte, um eine Stimmerkennung vorzutäuschen oder zu fälschen, da VALL-E Sprache synthetisieren und gleichzeitig die Identität des Sprechers wahren könnte.
VALL-E könnte beispielsweise verwendet werden, um Spam-Anrufe zu generieren, die legitim erscheinen um Leute zu betrügen. Politiker oder Personen mit einer respektablen sozialen Präsenz sind ebenfalls anfällig für Identitätsdiebstahl, wie Falschmeldungen zeigen. Benutzer, die Anwendungen verwenden, die Sprachbefehle oder Sprachkennwörter benötigen, können Bedrohungen ausgesetzt sein. Darüber hinaus können durch VALL-E Synchronsprecherjobs gestrichen werden.
Ethische Position –
Außerdem das Unternehmen enthält eine Erklärung zur Ethik, die lautet: „Die Versuche in dieser Arbeit wurden unter der Annahme durchgeführt, dass der Benutzer des Modells der Zielsprecher ist und vom Sprecher akzeptiert wurde.“ Das Protokoll, um sicherzustellen, dass der Sprecher der Durchführung der Änderung zustimmt, und das System zur Erkennung der geänderten Sprache sollten in Sprachbearbeitungsmodelle einbezogen werden, hieß es, wenn das Modell auf alle Sprecher verallgemeinert wird.
Wie ist VALL -E Anders als DALL-E?
DALL-E ist ein von OpenAI erstelltes maschinelles Lernmodell, das Grafiken aus Textbeschreibungen generiert. Zur Beschreibung dieser Text-zu-Bild-Beschreibungen werden Eingabeaufforderungen verwendet. Eine einfache Beschreibung der Szene reicht aus, damit der Algorithmus realistische Bilder erzeugen kann. DALL-E ist eine neuronale Netzwerktechnik, die aus vom Benutzer bereitgestellten kurzen Wörtern präzise Bilder erstellt. Es lernt Sprache anhand von Textbeschreibungen und anhand von „Lerndaten“, die Benutzer und Entwickler zu seinen Datensätzen beigetragen haben.
Was denken Sie über VALL-E?Wir hoffen, dass Sie jetzt alles über VALL-E (Text zu Ton) im Vergleich zu DALL-E (Text zu Bild) wissen. Es gibt kein definitives Datum, wann VALL-E für die breite Öffentlichkeit zugänglich und nutzbar sein wird. Was DALL-E betrifft, wurde es bereits allen zur Verfügung gestellt.
Bitte lassen Sie es uns in den Kommentaren unten wissen, wenn Sie Fragen oder Empfehlungen haben. Gerne unterbreiten wir Ihnen eine Lösung. Wir veröffentlichen regelmäßig Ratschläge, Tricks und Lösungen für häufig auftretende technische Probleme. Sie finden uns auch auf Facebook, Twitter, YouTube, Instagram, Flipboard und Pinterest.
Lesen: 0