Now Reading
Ebendiese KI imitiert menschliche Stimmen nachher nur drei Sekunden

Ebendiese KI imitiert menschliche Stimmen nachher nur drei Sekunden

KI, Meta, Microsoft, Künstliche Intelligenz, Vall-e, Stimme, menschliche Stimme

[ad_1]

Microsoft hat eine neue Künstliche Intelligenz (KI) namens VALL-E entwickelt, die menschliche Stimmen imitieren kann. Eine drei Sekunden Menorrhagie Sprachprobe reicht hierfür offenbar schon aus.

Künstliche Intelligenz und KI-Tools spielen eine immer größere Rolle. Den Algorithmen fehlt es trotz oftmals an vielen menschlichen Eigenschaften – etwa dem eigenständigen Denken. So entstanden schon historische Texte von Bären im Weltall. Ungeachtet zeigen Tools wie ChatGPT, welches heutzutage möglich ist.

Dass die täuschend wirklich wirkende Kommunikation mit einer Maschine ebenfalls droben Texte rausgehen kann, zeigt nun Microsoft. Dasjenige Unternehmen stellte kürzlich ein eigenes TTS-Prototyp (Text-To-Speech) namens VALL-E vor. Dasjenige Gruselige daran: Es kann Menschen täuschend wirklich imitieren. VALL-E gewünscht hierfür nämlich nur drei Sekunden einer Sprachaufnahme.

VALL-E imitiert menschliche Stimmen

Die KI kann so jeden Menschen uff jener Welt täuschend wirklich nachahmen. Dasjenige System basiert dabeiauf einer Technologie namens EnCodec des Technologie-Unternehmens Meta, die jener US-Konzern erstmals im zehnter Monat des Jahres 2022 ankündigte. Die Künstliche Intelligenz analysiert derweil, wie eine Person spricht. Dazu nutzt sie Trainingsdaten, um andere Tonlagen zu so tun als ob.

Zu Händen ein natürliches Stimmbild reichen drei Sekunden einer Audioaufnahme aus. In jener Theorie ließen sich so Sprachassistenten erstellen, die wie Barack Obama oder Angela Merkel tönen.

Zu Händen ein noch besseres Ergebnis sorgen Trainingsdaten jener Audiobibliothek LibriLight – ebenfalls eine Schöpfung von Meta. Ebendiese beinhaltet 60.000 Zahlungsfrist aufschieben Audioaufnahmen von 7.000 englischen Sprecherinnen und Sprechern.

Neues Prototyp birgt manche Risiken

Sogar möglich sein soll die Vorspiegelung einer akustischen Umwelt zur Votum. Nimmt dasjenige System etwa eine Stimmprobe am Telefon entgegen, so klingt dasjenige fertige Prototyp ebenfalls wie eine Person am Telefon. Wie sich jeder denken kann, birgt dieser Methode demgegenüber viele Risiken. Dasjenige sieht ebenfalls Microsoft so.

Um den Vergewaltigung des Modells zu verhindern, entwickelte dasjenige Unternehmen somit ein Erkennungsmodell, dasjenige lukulent sagen kann, ob eine Mitschnitt von VALL-E stammt. Dasjenige soll den Unannehmlichkeit vorbeugen, dass Kriminelle die Technologie pro Authentifizierungen oder andere Vorkommen schänden. Ob dasjenige reichen wird, bleibt demgegenüber abzuwarten.

Sogar interessant:

[ad_2]
View Comments (0)

Leave a Reply

Your email address will not be published.

Scroll To Top