Ebendiese KI imitiert menschliche Stimmen nachher nur drei Sekunden
[ad_1]
Microsoft hat eine neue Künstliche Intelligenz (KI) namens VALL-E entwickelt, die menschliche Stimmen imitieren kann. Eine drei Sekunden Menorrhagie Sprachprobe reicht hierfür offenbar schon aus.
Künstliche Intelligenz und KI-Tools spielen eine immer größere Rolle. Den Algorithmen fehlt es trotz oftmals an vielen menschlichen Eigenschaften – etwa dem eigenständigen Denken. So entstanden schon historische Texte von Bären im Weltall. Ungeachtet zeigen Tools wie ChatGPT, welches heutzutage möglich ist.
Dass die täuschend wirklich wirkende Kommunikation mit einer Maschine ebenfalls droben Texte rausgehen kann, zeigt nun Microsoft. Dasjenige Unternehmen stellte kürzlich ein eigenes TTS-Prototyp (Text-To-Speech) namens VALL-E vor. Dasjenige Gruselige daran: Es kann Menschen täuschend wirklich imitieren. VALL-E gewünscht hierfür nämlich nur drei Sekunden einer Sprachaufnahme.
VALL-E imitiert menschliche Stimmen
Die KI kann so jeden Menschen uff jener Welt täuschend wirklich nachahmen. Dasjenige System basiert dabeiauf einer Technologie namens EnCodec des Technologie-Unternehmens Meta, die jener US-Konzern erstmals im zehnter Monat des Jahres 2022 ankündigte. Die Künstliche Intelligenz analysiert derweil, wie eine Person spricht. Dazu nutzt sie Trainingsdaten, um andere Tonlagen zu so tun als ob.
Zu Händen ein natürliches Stimmbild reichen drei Sekunden einer Audioaufnahme aus. In jener Theorie ließen sich so Sprachassistenten erstellen, die wie Barack Obama oder Angela Merkel tönen.
Zu Händen ein noch besseres Ergebnis sorgen Trainingsdaten jener Audiobibliothek LibriLight – ebenfalls eine Schöpfung von Meta. Ebendiese beinhaltet 60.000 Zahlungsfrist aufschieben Audioaufnahmen von 7.000 englischen Sprecherinnen und Sprechern.
LinkedIn-Guide gratis!
Melde dich jetzt pro unseren wöchentlichen Newsletter BT kompakt an. Wie Dankbarkeit schenken wir dir unseren LinkedIn-Guide.
Neues Prototyp birgt manche Risiken
Sogar möglich sein soll die Vorspiegelung einer akustischen Umwelt zur Votum. Nimmt dasjenige System etwa eine Stimmprobe am Telefon entgegen, so klingt dasjenige fertige Prototyp ebenfalls wie eine Person am Telefon. Wie sich jeder denken kann, birgt dieser Methode demgegenüber viele Risiken. Dasjenige sieht ebenfalls Microsoft so.
Um den Vergewaltigung des Modells zu verhindern, entwickelte dasjenige Unternehmen somit ein Erkennungsmodell, dasjenige lukulent sagen kann, ob eine Mitschnitt von VALL-E stammt. Dasjenige soll den Unannehmlichkeit vorbeugen, dass Kriminelle die Technologie pro Authentifizierungen oder andere Vorkommen schänden. Ob dasjenige reichen wird, bleibt demgegenüber abzuwarten.
Sogar interessant: