# Voice AI Commercialization: Compliance, B2B Scaling, and Market Shifts

**Podcast:** Kollegin KI
**Published:** 2026-04-28

## Transcript

Leute, die geneigten ZuhörerInnen dieses Podcasts wissen ja, dass ich irgendwann mal Unternehmensberater war vor Jahren und auch so Krisenkommunikation gemacht habe.
Und gerade im Bereich KI bin ich relativ früh in so Krisenpräventionskurse gegangen und habe die dann gegeben.
Und eine meiner Lieblings-Use-Cases aus der damaligen Zeit war, dass ich die Stimme der CEOs...
des Unternehmens, das ich dann beraten habe, geklont habe und mit dieser Stimme die Definition von Deepfakes habe vorlesen lassen.
Das sorgte immer für Gelächter bei den Angestellten.
Die Chefs fanden das immer gar nicht witzig und wollten dann wissen, wie hast du das gemacht und das ist doch illegal und so.
Und darum ging es dann am Ende gar nicht.
Ich habe natürlich gezeigt, wie ich das gemacht habe und ich habe damals schon ein Tool dafür genutzt, das bis heute eigentlich so das State-of-the-Art-Tool ist, wenn es um AI-Voice geht und zwar Eleven Labs.
Das Ganze würde ich heute gerne einfach mal besprechen.
Ich würde gerne mal wissen, wie dieses Thema rund um Eleven Labs tatsächlich um Voice, AI weitergeht, was da eigentlich gerade State of the Art ist.
Und dazu habe ich mir heute jemanden von Eleven Labs eingeladen und möchte mal über das Thema sprechen.
Gordian Braun ist heute hier und er ist Leiter von Growth und Innovation bei Eleven Labs in Europa.
Und ich freue mich sehr, dass er heute hier ist und sich meinen Fragen stellt.
Ich bin Max Muntenke, ihr hört Kollegin KI.
Hallo Gordian.
Hi Max, freut mich da zu sein.
Schön, dass du da bist.
Ja, wie läuft's?
Ich freue mich auch und vor allem mit einer echten Stimme.
Ja, genau.
Wie läuft's?
Es läuft super.
Also das, was du jetzt gerade gesagt hast, da reden wir natürlich über die frühen Phasen der AI und besonders in diesem Fall der Voice AI, aber jetzt sind wir knapp zweieinhalb, drei Jahre später.
Die Branche hat sich ein bisschen entwickelt.
Wir gehen weg von diesen Nice-to-have-Use-Cases und wir klonen mal irgendwelche Stimmen zu mehr Seriosität, sehr viel Anwendungsfällen, vor allem im Business-Umfeld.
Und natürlich auch Compliance-technisch sollte sowas, was du gerade erzählt hast, heute nicht mehr möglich sein.
Ja, da müssen wir drüber sprechen, denn das war absurd einfach damals.
Und wenn die gefragt haben, wie ich das gemacht habe, habe ich gesagt, naja, ich habe mir irgendein YouTube-Video rausgesucht, weil jeder von den Chefs irgendwann mal auf irgendeiner Bühne stand, auf irgendeinem Panel und irgendwie eine Frage beantwortet hat.
Und damals reichten 45 Sekunden Ton aus, um im Grunde eine Stimme komplett zu reproduzieren.
Also es ist Wahnsinn.
Ich habe mir dann halt die...
Videos runtergeladen von YouTube, habe die Stimme extrahiert, geschnitten und das Ganze dann irgendwie bei Eleven Labs hochgeladen und schon konnte ich diesem CEO quasi alles in den Mund legen, was ich wollte.
Und ich glaube, mittlerweile ist die Technologie ja noch weiter.
Ich hatte irgendwas gelesen, dass mittlerweile 15 Sekunden Stimmprobe unter Umständen schon reichen, um eine Stimme zu klonen.
Und das ist ja erstmal, ich sag mal, von der technischen Seite her komplett beeindruckend, dass das funktioniert.
Das ist Science Fiction irgendwie und schwer zu begreifen, finde ich immer noch.
Aber auf der anderen Seite hat das natürlich auch gesellschaftliche Auswirkungen.
Also wenn man sich gerade so die Deepfake-Debatte mal anhört, die jetzt gerade auch wieder hochkocht durch diverse Fälle, die in den Medien waren, den Missbrauch von KI und so weiter.
Wie seht ihr das eigentlich im Unternehmen?
Also wir haben da eine Zero-Tolerance-Policy.
Also wenn du das bei uns machen würdest und es technisch möglich wäre, dann wärst du nach wenigen Minuten gesperrt.
Aber wie wir damit umgehen ist, wenn du eine Stimme klonen möchtest, wofür wir natürlich mit einem unserer Produkte stehen, dann kannst du deine eigene Stimme hochladen oder eine, von der du die Berechtigung hast, auch mit 15 Sekunden Snippets, das stimmt.
Aber du musst durch Verifizierungschecks durchgehen.
Das heißt, wenn es deine eigene ist, dann musst du erst mal verifizieren, dass du das wirklich auch selber bist.
Das ist aber neu, oder?
Ja, also es gibt es auch schon seit anderthalb Jahren.
Aber das, was du erzählt hast, am Anfang gab es natürlich diese ganzen Guardrails nicht.
Und das ist auf der einen Seite die Verifizierung.
Auf der anderen Seite gleichen wir natürlich auch die Stimmen, die versucht werden zu klonen, ab mit Millionen von Stimmen in unserer Library.
Das heißt, wenn du jetzt hier auf die Idee kommst, irgendwie die Zustimmung von Barak Rebolmer zu veröffentlichen, dann ist die Wahrscheinlichkeit sehr, sehr, sehr hoch, dass du sofort gesperrt wirst.
Und da kennen wir auch keinen Spaß mit.
Also das verfolgen wir dann auch selber rechtlich.
Denn sowas wollen wir um jeden Preis verweinen.
Okay, das ist natürlich gut, dass diese Entwicklung auch ein bisschen mehr zu Safety geht.
Jetzt muss man sagen, ihr seid ein europäisches Unternehmen.
Also ich glaube, die beiden Gründer sind Polen, sind auch gute Freunde, sind gut miteinander befreundet.
Vielleicht kannst du noch ein bisschen was erzählen, wie eigentlich diese Idee zu Eleven Labs entstanden ist und vielleicht auch mal ein bisschen da reingehen.
Wie ist das eigentlich, ist das so eine europäische Denkweise?
Weil eigentlich kennen wir das doch nicht so von Big Tech, dass die sich tatsächlich Gedanken machen auch, um was sind die gesellschaftlichen Impacts.
Man hat so das Gefühl, gerade wenn man in die USA blickt, dass man sagt, okay, wir hauen einfach mal irgendwie raus, was gerade technisch möglich ist und nach uns die Sintflut, das werden Gerichte irgendwann schon regeln.
Wie ist das bei euch in der Firmenphilosophie?
Eleven Labs ist ein europäisches Unternehmen.
Wir sind das höchst bewertetste Voice-Unternehmen der Welt und auch das schnellst wachsendste.
momentan bei 11 Milliarden US-Dollar bewertet, natürlich mit all den großen Investoren, die es so gibt.
Und wie kam es eigentlich dazu?
Es kam dazu, dass diese beiden Gründer, einer der Gründer heißt Mati, an einem Abend irgendwo im Wohnzimmer in Polen saßen und gesagt haben, boah, diese Übersetzungen der vor allem Hollywood-Filme sind einfach wahnsinnig schlecht.
Und wie gut wäre eine Welt, wo man die Originalstimme hören könnte des originalen Actors aus Hollywood, aber in polnischer Sprache.
Und das am allerbesten perfekt Lippen synchronisiert.
Ja, und dann hat man auf dem Weg dahin festgestellt, dass...
das gar nicht so einfach ist, diese perfekte Lippensynchronisierung.
Und dass ganz viele Teile davon richtig sein müssen.
Das fängt mit der Transcription an, mit der Übersetzung in eine polnische Stimme, geht weiter dann in vielleicht die perfekte Lippensynchronisierung, aber auch in die Tonation der Stimme, dass du die nicht verfälschst.
Ja, und daraus ist dann Elevenlabs entstanden in London.
Die beiden haben für Palantir in London gearbeitet und das ist jetzt knapp dreieinhalb Jahre her.
Und seitdem...
sind wir relativ schnell gewachsen, erst auf der Seite, die du gerade erwähnt hast, eher Consumer- oder Creator-focused, dass es sehr einfach wurde, auf einmal Voice-Overs zu machen oder mit klonten Stimmen deinen CEO Pressemitteilungen zu verlesen oder sowas.
Mittlerweile aber sehr viel mehr im B2B-Kontext, wo wir mit mittlerweile 75 Prozent aller Fortune 500 Unternehmen arbeiten, alle Arten von Kundeninteraktionen zu verbessern.
Das klassischste Beispiel ist Kundensupport.
Warum soll ich immer, drücke jetzt die 1, drücke jetzt die 2 und dann da 40 Minuten in der Warteschlange hängen, wenn eine KI mir innerhalb von Millisekunden weiterhelfen kann.
Aber das geht viel weiter.
Trainings, Outbound-Anrufe, Qualifizierungen und so weiter und so fort.
Und jetzt zu deinem anderen Punkt.
Europäisches Unternehmen versus Silicon Valley oder amerikanisches Startup-Unternehmen.
Es ist schon so, dass wir vom Mindset her einen guten Hybrid haben, glaube ich.
Und ich glaube, da kommt das Beste aus beiden Welten zusammen.
Was die Amerikaner, und ich habe selber drei Jahre lang in der Startup-Welt in Amerika gelebt, immer sehr gut machen, ist, sie vermarkten sich sehr gut und sie sind sehr schnell in der Adoption.
Und da, glaube ich, tun wir uns immer in Europa, besonders auch in Deutschland, immer ein bisschen schwieriger.
Auf der anderen Seite, und das machen wir Europäer verdammt gut, ist, Wir denken immer schon mal ein paar Schritte voraus.
Wir denken darüber nach, was könnte passieren, was sind die Outcomes, die wir vielleicht nicht haben wollen und so weiter und so fort.
Und ich finde, wenn man beides in einer Kultur miteinander vereint, dann kriegt man eigentlich das Beste aus beiden Welten.
Und das sieht man ziemlich gut bei Eleven Labs, wo wir schon pragmatisch am Ende vor drei Jahren waren, dass du in der Lage warst, eine Stimme zu klonen und dann sehr schnell realisiert haben, boah, das ist nicht, wie wir das moralisch haben wollen.
Und wie wollen wir es denn eigentlich haben?
Und deswegen wahnsinnig viel...
mittlerweile Fokus auf Sicherheit, Compliance, Zertifizierungen.
Mittlerweile sind unsere Stimmen und AI-Modelle versicherbar als erstes Unternehmen der Welt.
Wo wir stolz drauf sind, denn du musst da durch 6.000, 7.000 Checks durchgehen.
Dass eben gerade die Sachen, die immer top of mind für uns Europäer sind, Sicherheit, dass wir uns selber aufbürgen, dass das nicht zu Problemen führen sollte.
Das heißt, wenn meine Voice AI Blödsinn erzählt oder Gutscheine verspricht oder vielleicht Customer Support anfängt, Leute wahllos zu beleidigen, dann wäre ich für den Schaden auch versichert über euch.
Du kannst die versichern lassen.
Also es gibt eine Organisation, die heißt AIUC-1, die im Grunde genommen eine Checkliste hat von 5.000 bis 6.000, 7.000 Sachen, die erfüllt sein müssen, damit deine KI gut genug ist, damit sie versicherbar ist.
Okay, verstehe.
Und jetzt haben wir, das ist jetzt erst ein paar Wochen her, vor fünf, sechs Wochen, diese Zertifizierung bekommen.
Und jetzt können sich Unternehmen, die uns benutzen, entschließen, dass sie, wenn sie dieses Risiko versichern wollen, das eben machen.
Und ich glaube, unser allererster großer Kunde, der das macht, ist Immobiliare.it.
Das ist das italienische Immo-Scout.
die das natürlich machen.
Die sind so groß und die wollen sicher gehen, dass das passt.
Das heißt, die Immobilienmakler werden schon von KI abgelöst?
Ich glaube, die gibt es nach wie vor und die wird es wahrscheinlich auch immer geben, weil die persönliche Interaktion immer wichtig sein wird.
Aber was natürlich jetzt viel besser ist, ist, dass ich jetzt auf Immobiliare IT gehe und sage, hey, ich suche eine Wohnung 100 Quadratmeter in Rom, bitte hell.
Und anstatt, dass ich mich dann durch hunderte verschiedener Listings durchscrollen muss und irgendwelche Filter bedienen muss und ich weiß nicht was, kriege ich halt eine Beratung.
Und das vom ersten Zugriff auf die Webseite.
Jetzt finde ich es auch spannend.
Du hast gesagt, dass ja...
die Gründung des Unternehmens so ein bisschen aus dem Anreiz heraus kam, dass man gesagt hat, okay, wir haben keine guten polnischen SynchronsprecherInnen beziehungsweise ist das von der Qualität her vielleicht nicht so geil oder wir wollen ja im Idealfall natürlich die Originalstimmen, aber in unserer Sprache.
Jetzt kann aber nicht jeder Christoph Wald sein, der zig Sprachen spricht und irgendwie die auch immer mit seiner eigenen Stimme vertont.
Von daher ist das ja ein smarter Gedanke.
Jetzt gibt es ja aber gerade tatsächlich auch in Deutschland eine relativ große Bewegung gegen Netflix beziehungsweise überhaupt gegen Video-on-Demand-Anbieter, die planen natürlich genau sowas auch umzusetzen.
Wie steht ihr mit denen eigentlich in Kontakt?
Habt ihr irgendwie Kontakt zu so der Synchronsprecherbranche in Deutschland, die ja extrem professionell ist, muss man sagen.
Also ich glaube, Deutschland ist ja eines der Länder mit den besten SynchronsprecherInnen weltweit und da gibt es ja durchaus auch wahnsinnige Talente, die wir alle kennen und alle auch sofort hören würden.
Was würdest du denen sagen, wenn die jetzt sagen, ja das ist irgendwie blöd, wir würden gerne unsere Jobs behalten?
Erstmal würde ich sagen, habe ich volles Verständnis für und ich meine, ich erinnere mich da selber an Stimmen.
Kennst du noch diese Bruce Willis Stimme?
Selbstverständlich.
Ich glaube, die hat dann auch für den Praktika Baumarkt und ich weiß nicht, was Werbung macht.
Bleibt hängen.
Überragend.
Unser Ziel ist natürlich nicht, diese Stimmen abzuschaffen.
Und oft ist es ja auch so, dass wenn du dir bestimmte Schauspieler anguckst, jetzt vielleicht zum Beispiel im deutschen Markt, dann weißt du gar nicht, wie Bruce Willis eigentlich geklungen hat oder klingt.
Sondern du willst eigentlich auch die deutsche Stimme.
So und da muss ich dann sagen, okay, da macht 11labs aber auch diesen Stimmen vielleicht ein bisschen einfacher.
Denn du kannst als Voice Actor, aber auch als jede andere Person, die eine gute Stimme hat, bei uns deine Stimme lizenzieren und zur Verfügung stellen und wirst dann entsprechend bezahlt dafür, dass deine Stimme eingesetzt wird.
Das heißt, ich weiß nicht, wie der Voice Actor hieß, der Bruce Rose Stimme gegeben hat.
Aber im Grunde genommen könnte er wahrscheinlich seine physische Präsenz multiplizieren durch unsere AI und überall genutzt werden.
In Werbefilmen, Kommunikationsmitteilungen und bei den Baumarktwerbungen.
Und würde dann von uns vergütet werden.
Und ich finde ein ganz gutes Beispiel, wir hatten vor vier, fünf Wochen hatten wir eine Konferenz in London.
Da haben wir die größten tausend Kunden eingeladen.
Eine Person, die ich da kennengelernt habe, war ein Ex-Voice-Actor, der jetzt einen Vollzeitbetrieb hat, um Stimmen auf Eleven Labs zu bauen.
Und der macht natürlich wahnsinnig viel Geld durch die Lizenzierung auf unserer Plattform.
Hat jetzt mittlerweile seine Tochter auch ongebordet, die auch eine sehr attraktive Stimme hat.
Und expandieren jetzt, gerade hat er mir erzählt, er selber Engländer, expandieren jetzt in deutsche Stimmen.
Und insofern wird es wahrscheinlich auch eine neue Industrie geben oder eine neue Rubrik der Voice-Acting-Rubrik, wo existierende Voice Actor spezifisch für KIs Stimmen zur Verfügung stellen werden, die dann eben besser genutzt werden können.
Sofern die Verträge dann natürlich auch entsprechend gut sind, beziehungsweise die Voice Actor da, sage ich mal jetzt, nicht ihre Stimme verramschen lassen, sondern natürlich...
Genau, aber um dir so ein kleines Beispiel zu geben, wir haben alleine letztes Jahr über 11 Millionen ausgezahlt an Voice Actor.
Ach krass.
Also ich finde, das ist eine Debatte, die ich auch gerne irgendwie viel größer spiele in Sachen AI.
Ja, also es gibt ja die VG Wort, nehme ich immer gerne als Beispiel, oder auch die GEMA, so Verwaltungsgesellschaften, Verwertungsgesellschaften, gerade in Deutschland, die Tantieme auszahlen.
Also ich auch als Buchautor profitiere ja auch von der VG Wort und so.
Wenn mein Buch kopiert wird oder irgendwo in der Bücherei liegt oder so, dann kriege ich dafür regelmäßig halt ein paar Cent und so.
Aber es existiert.
Und ich bin ja großer Fan von dem Gedanken, so eine VG AI zu finden.
zu haben.
Also, weil wir wissen es, ja, die großen Large Language Models, sind natürlich trainiert auf Daten, die sie irgendwo im Internet zusammengeklaut haben, auf Büchern, auf allem möglichen.
Im letzten Jahr gab es da diese Studio Ghibli-Welle, dass man irgendwie relativ schnell sich selbst als Studio Ghibli-Bild machen konnte, wo man gerade da einfach gesehen hat, dieses Studio in Japan, das ist bekannt dafür, teilweise wochenlang an einzelnen Szenen mit zig ZeichnerInnen irgendwie zu sitzen und wirklich Handarbeit.
Und jetzt kann man das auf Knopfdruck einfach mit KI machen, ohne dass diejenigen, die sich das ausgedacht haben, irgendwie was davon bekommen.
Und vielleicht auch nochmal da zu deinem europäischen Punkt.
Da gehen wir zum Beispiel auch einen anderen Weg.
Wo das wahrscheinlich, kenne ich mich nicht genug aus, völlig richtig, was du sagst, dass viele einfach irgendwelche Quellen nutzen, um Modelle zu trainieren.
Trainieren wir unsere Modelle nur mit Lizenz, lizenzierten oder durch Lizenzen, die wir haben.
Ich nehme dir mal ein Beispiel.
Wir haben zum Beispiel ein Musikmodell ausgebracht vor ein paar Monaten.
Du kannst deinen eigenen Musiksong erstellen über Eleven Labs.
Das haben wir nicht trainiert, indem wir, weiß ich nicht, YouTube oder Spotify gescrapt haben, sondern indem wir spezifische Vereinbarungen mit bestimmten Plattenlabels getroffen haben, die uns erlauben, diese Musik wiederzuverwerten.
um dafür unsere Modelle zu trainieren.
Das heißt, die bekommen natürlich auch eine monetäre Verwertung.
Aber es sorgt eben dafür auch, dass wir mit unserem europäischen Mindset von Anfang an alles richtig machen und eben nicht darauf angewiesen sind, dass wir dann irgendwann Klagen durchstehen müssen und uns in langen Klagewegen festhalten.
Wie die GEMA das ja, glaube ich, bei Zuno oder Udio gerade gemacht hat.
Also gibt es ja, glaube ich, gerade die Klage und natürlich auch das Angebot von der GEMA, dann direkt zu sagen, lizenziert doch einfach.
Lasst es uns doch einfach gemeinsam lösen, statt einfach unsere Sachen zu klauen.
Also schön, wenn ihr da zumindest den ersten Auftakt schon mal gemacht habt.
Genau.
Und daran siehst du es ja auch.
Und das Tolle daran ist, wenn du dann diese Rechte hast mit diesen ganzen Plattenherstellern und Plattenlabels, dann kannst du selber die Musik, die du über Eleven Labs kreierst, selber vermarkten.
Denn es gibt ja gar keine...
lizenzrechtlichen Probleme mehr.
Und das passiert übrigens auch.
Also es ist jetzt nicht so, dass nur kleinere Leute wie du und ich jetzt ihre Songs erstellen könnten und dann sagen, ich möchte das jetzt auf Spotify veröffentlichen, sondern auch größere Künstler wie zum Beispiel Will.i.am oder sowas, die ganze Alben mit Eleven Laps bauen oder jedenfalls die Inspiration zu neuen Songs bekommen, um dann damit weiterzugehen hinsichtlich ihrer dann originalen Songs.
Wie viel ist da noch übrig von der...
romantischen Vorstellungen Kunst zu machen, in ein Studio zu gehen, so wie wir hier gerade sitzen, um diesen Podcast aufzunehmen, das Drumherum, Kaffee vorher zu trinken, zu quatschen, ja, irgendwie mit verschiedenen Leuten dann da zu sitzen und das zu machen oder etwas zu zeichnen und so.
Wird Kulturschaffung in Zukunft komplett unromantisch am PC?
Was stattfinden dann?
Ja, das ist ein bisschen so wie mit ChatGPT oder anderen LLMs, wo du denkst, mein Marketingjob wird ja unromantisch dadurch, dass ich jetzt schneller Antworten bekomme.
Irgendwie schon.
Die Kreativität geht ein bisschen raus.
Ich merke selber, dass ich immer sehr viel prompte und erst mal frage.
Und es gibt mir auch, woher ich Tage gebraucht habe, um eine kreative Möglichkeit zu bekommen, bekomme ich jetzt sofort was.
Auf der anderen Seite, es gibt mir natürlich viel mehr Möglichkeiten.
Und wenn ich jetzt sehe, jetzt bleiben wir mal bei der Musik.
Also ich glaube, diese Story, die kennen wir alle, dass irgendwelche Künstler fünf Jahre gebraucht haben, um ein Album rauszubringen.
Und in gewisser Weise kaufen wir das ja auch mit.
Aber wenn denn jetzt ein Künstler mal so eine Leidensphase durchsteht, dann könnte er so eine Software nutzen wie Eleven Labs, um kreativ ...
mindestens mal Input zu bekommen und zu gucken, wie komme ich dann schneller an das neue Album, das sehnsüchtig erwartet wird.
Also ich glaube, es hat beides so seine Für und Widers.
Ich sehe das eher als eine Evolution, als eine Abschaffung.
Und wir kaufen ja auch heutzutage noch weiterhin Vinylplatten, weil wir die Romantik an Vinylplatten lieben.
Und wahrscheinlich ähnlich.
In der Zukunft.
Ja, die 90s sind back.
Auch wenn man an Bruce Willis denkt, du hast ihn angesprochen, der ist ja im Grunde schwer krank ist, an ALS erkrankt ist und wohl nie wieder einen Film machen wird, dass man dann denkt, hey, rein theoretisch gibt es doch irgendwie so viele Daten von ihm.
Es war so ein toller Schauspieler, der auch für viele Vorbild war, womit sich auch viele vielleicht identifizieren konnten.
Es ist technisch möglich, vielleicht diese Kultur weiterzuführen.
Wie siehst du das?
Also ich habe selbst noch gar keine richtige Meinung dazu.
Es ist einfach gerade mal irgendwie so in die Tüte gesprochen.
Aber ist es vielleicht irgendwann dann auch Zeit zu sagen, nee, Kultur ist dann jetzt hier abgeschlossen, die Leute wollen nicht mehr, sind raus, keine Ahnung?
Nee, das sehen wir nicht so.
Also wir haben ein Pledge-Programm bei uns, bei Elon Labs.
Wir investieren wahnsinnig viel Geld in genau diesen Use Case, den du sagst.
Ich glaube, bei Bruce Willis ist es, glaube ich, sogar Demenz, gar nicht ALS.
Achso, okay.
Gerade der ALS-Fall.
Auch da wieder auf unserer London Summit, die wir vor ein paar Wochen hatten, hatten wir einen ALS-erkrankten Musiker, der, ich glaube, irische Volkmusik sehr gerne gemacht hat.
Und der ist da mit seiner Band wieder aufgetreten.
Natürlich ist das ein anderer Auftritt.
Also wenn du an ALS erkrankt bist, da hast du sehr viele Einschränkungen.
Aber dieser Person konnten wir quasi eine Stimme wiedergeben und sie konnte dann semi-live...
auf unserer Bühne performen mit seinen alten Bänden.
Das ist natürlich ein großes Highlight für solche Personen.
Sau spannend.
Ich werde da auf jeden Fall noch eine ganze Zeit drüber nachdenken, weil ich das schon spannend finde, was für eine Veränderung das eben für Kulturschaffende, für Künstler eben auch bedeutet.
Lasst uns vielleicht mal ein bisschen zum Business-Thema zurückkommen.
So sehr ich liebe, über Kultur und Gesellschaft zu sprechen, sind wir am Ende doch noch ein Podcast, der sich auch um KI in der Arbeitswelt dreht.
Und da gibt es irgendwie einen coolen Use Case, über den ich gestolpert bin bei euch, und zwar mit Klana.
Kannst du einmal erklären, was ihr für Klana gemacht habt?
Ja, also für alle, die die Clana vielleicht noch nicht kennen, Clana ist eigentlich eine Bank oder eine finanzielle Institution, über die man Zahlungen weitestgehend abwickeln kann.
Und Clana ist als Unternehmen global aktiv und hat damit natürlicherweise sehr viele Support-Anfragen jeden Tag.
Und was wir uns gesagt haben ist, dadurch, dass Clana sehr digital auch aufgestellt ist, wir können im Grunde genommen den ganzen Standardsupport von Clana automatisieren mit, was wir nennen, 11 Labs Agents.
Ja, Stimmen, Klarna-spezifische Stimmen, die wir das Konto sperren können bei Betrugsverdacht oder dir sagen können, worum es sich bei einer Abrechnung handelt oder ihr mit jedem anderen Support unterstützen können.
Und das Tolle bei Klarna ist, der CEO ist, Sebastian heißt er, ist sehr hands-on.
Und hat dann gesagt, lass uns doch einfach meine Stimme klonen und ich mache ab jetzt den Kundensupport für Klana weltweit.
Und das haben wir ausgerollt und abgesehen davon, dass es ein schönes Gimmick ist, dass der CEO einen jetzt unterstützt, ist es schon so, dass wir Millionen von Kundensupport anrufen, hier jeden Monat automatisieren bei Klana und dir ohne große Wartezeit, ohne irgendwelche, drücken Sie die Eins für das Menüs, weitergeholfen wird.
Und so können wir, ja bei Klana war es glaube ich 80 Prozent.
Time to Resolution Verringerung.
Krass.
Stellt euch das mal vor, Leute, wenn ihr irgendwie jetzt im Rathaus anruft oder so oder irgendwas erfragen wollt und dann...
statt so einer Computerstimme beim Arbeitsamt habt ihr dann einfach, keine Ahnung, wir gehen mal ganz nach oben, habt ihr einmal Friedrich Merz am Telefon, mit dem ihr dann reden könnt und sagen könnt, hier, wo ist denn mein Bescheid?
So Leute, Friedrich, was machst du denn da?
Ja, also ich finde es einen super coolen Case, dass du halt wirklich die Stimme des CEOs nimmst für Customer Support Anfragen.
Es ist total genial, also muss ich wirklich sagen.
Ist auf jeden Fall witzig.
Und irgendwie auch so ein bisschen die klare Kultur, die man so kennt, wenn man ein klare Kunde ist.
Also es gibt aber jetzt auch, also wenn wir jetzt bei Friedrich Merz sind, das ukrainische Government nutzt uns auch.
Da hast du natürlich jetzt keine Selensky-Stimme oder sowas, die dich unterstützt, aber da wäre zum Beispiel der Use Case extrem interessant.
Du rufst an und fragst einfach, wonach dir ist.
Also keine Ahnung, ich will ein Unternehmen aufmachen.
Was muss ich tun?
Und dann ist das so mit allen Systemen verknüpft in der Ukraine, dass es dir nicht nur sagt, was du tun musst, das ist der Prozess zur Unternehmenseröffnung, sondern es brät dich auch.
Sagt, die GmbH ist besser für das, die AG ist besser für das, Einzelunternehmen für das.
By the way, kann ich dir das per E-Mail schicken?
Dann sendet es dir automatisch an die E-Mail.
Und das heißt, du kannst, das war jetzt ein Beispiel bei Unternehmensordnung, aber tausende von administrativen Aufgaben mit der Regierung.
über Eleven Labs Agenten machen in der Ukraine.
Das trifft mich emotional, als jemand, der jetzt vor kurzem erst gegründet hat, den Gang zum Notar gewagt hat und gesehen hat, was das für ein bürokratischer Aufwand ist.
Und wie teuer das auch alles ist.
Und dass du dann, auch bei mir, ich investiere öfters mal in deutsche Unternehmen, wenn ich dann sehe, dass wir teilweise neun Monate brauchen von, ich habe die Idee zu gründen, zu ich kriege meine Steuernummer.
Dann könnt ihr solche Agenten natürlich wahnsinnig schnell weiterhelfen.
Du müsstest natürlich dein System auch entsprechend anpassen.
Das ist das, was wir immer in Deutschland sagen.
Das wären eigentlich die Reformen, die wir bräuchten.
Nicht ein bisschen rumdoktern an existierenden Systemen, sondern einfach mal neu machen.
Aber dann würde das gehen und dann könntest du innerhalb von wenigen Minuten dein Unternehmen eröffnet haben.
Das ist krass, dass der das in der Ukraine tatsächlich macht.
Also dass ein Land, das wirklich, glaube ich, das Bruttoinlandsprodukt von Hamburg hat oder so, wenn ich richtig informiert bin und halt im Krieg steckt, trotzdem in Sachen Digitalisierung einfach innovativer ist als wir als drittgrößte Volkswirtschaft der Welt.
Von der Ukraine lernen heißt siegen lernen, Leute.
Zitiert mich gerne.
Es ist schon...
irgendwo auch ein bisschen ein Armutszeugnis für Deutschland, aber wahrscheinlich liegt es daran, dass da halt auch viel Druck ist.
Also wir sind natürlich in Deutschland sehr bequem geworden, wir tun uns wahnsinnig schwer mit Sachen.
In der Ukraine haben wir natürlich Druck durch die Kriegssituation und es ist natürlich, ich weiß nicht, ich war noch nie in der Ukraine, aber wenn ich jetzt als Mann da irgendwo an der Front stehen würde und ich muss trotzdem irgendwie meine Steuererklärung abgeben und so weiter.
Also wie würde ich das machen in Deutschland?
Weiß ich nicht.
Und wahrscheinlich ist es dem auch dem Druck geschuldet, dass es dann so schnell umgesetzt wurde.
Also das finde ich schon, zum einen die Stimme von CEOs nehmen, um Kundenanfragen zu machen, finde ich tatsächlich eine ziemlich smarte Sache.
Wie sichert ihr das ab?
Wir haben ja eine deutsche Audience und da ist die erste Frage natürlich, wie sicher ist das?
Also wenn da jetzt irgendwie Quatsch erzählt wird, du hattest schon von der Versicherung für Stimmen gesprochen.
Das ist die Versicherung für alle Agenten.
Für alle Agenten, okay.
Und es gibt ja aber dieses Beispiel, ich glaube, das ist diese kanadische Airline, die auch früh experimentiert hat mit AI Customer Support und dann relativ schnell Probleme bekommen hat, weil jemand den Bot überlistet hat und gesagt hat, okay, ich hätte hier gerne einen Freiflug oder irgendwie einen Rabatt oder irgendwas war da.
Ja, und das wurde am Ende nicht genehmigt.
Und da hat auch ein Gericht, deshalb ist das Ding damals so viral gegangen, Gericht entschieden, wenn eure Chatbots oder AI-Systeme auf der Website und im Customer Support gewisse Dinge von sich geben, dann sind die rechtssicher und dann wird sich daran gehalten.
Jetzt weiß ich aus meiner Beratertätigkeit, dass Lash-Language-Models niemals 100% korrekt sind.
Es gibt immer gewisse Dinge wie Prompt Injection, also dass man versucht, durch gewisse Eingaben gezielt einen Output zu erzwingen, der eigentlich gar nicht so im System vorgesehen ist.
Immer wieder irgendwie auch virale Beispiele für die funktionieren.
Das heißt, so eine hundertprozentige Sicherheit existiert da doch gar nicht, oder?
Ich frage mal so rum.
Erstmal existiert die denn, wenn ein Mensch das macht?
Also auch da, ich glaube, wir kennen alle die Use Cases, wo wir, weiß ich nicht, ein Flug wurde gestrichen oder sonst irgendwas.
Dann hängen wir ewig in der Warteschlange und dann werden wir von einem.
echten, menschlichen, also einem Menschen von einem Menschen zum nächsten transferiert und niemand hat einen Plan und jeder erzählt einem irgendwas anderes.
Also es ist nicht so, als würde der Kundensupport mit Menschen so arg viel besser funktionieren oft.
So, jetzt muss man aber dazu sagen, sind wir bei dem EU-Unternehmen, wir sind wahnsinnig stolz auf die ganzen Zertifizierungen und die ganzen Restriktionen, die wir uns selber aufbürgen als Unternehmen.
Das fängt an mit GDPR-Compliance, EU-Server-Hosting und so weiter, hört mit dieser Versicherung und so weiter aus.
Dazwischen gibt es Dutzende Zertifikate von allen Healthcare-Institutionen, Finanzzertifizierte und so weiter, dass wir wirklich den breiten Raum sicher abdecken können, was diese Agents-Plattform-Arten geht und uns das durch die zertifizieren lassen.
Das ist jetzt in der Theorie.
In der Praxis ist es so, dass du, wenn du so einen Agenten baust, dir das so vorstellen musst, dass es nicht den einen Agenten gibt, der dann auf einmal alles macht.
Sondern du musst dir ganz viele kleine Subagenten vorstellen.
Subagent Max kriegt Kundeninformationen, Subagent Max 2 kriegt Billing Information und Max 3, weiß ich nicht, Flugdaten oder sowas.
Und jeden einzelnen dieser Subagenten connectest du mit anderen Systemen.
Das heißt, es ist auf keinen Fall so, dass ein Agent Zugriff zu allen Daten hat und haben kann.
Und so baust du dir deine Guardrails.
Du definierst dir unterschiedliche Guardrails und sagst ganz genau, das darf der Agent, das darf der nicht, das darf er sagen, das darf er nicht sagen, zu dem System darf er verbinden und so weiter.
Und je genauer die Modelle werden, das sind natürlich, wir sind eine Research Company, die ganzen foundational Models in Audio und Voice, die kommen von uns.
desto besser wird diese Erfolgsquote.
Und jetzt interagiert das natürlich nicht nur mit Voice-Modellen, sondern auch mit LLMs.
Und das heißt, die Kombination von welchen Subagenten du mit welchem LLM benutzt, plus mit welchen unserer Systeme und unserer Modelle, sorgt dafür, dass du eine sehr hohe Erfolgsquote hast, was sowas angeht.
So, jetzt ist es natürlich so wie mit jedem Produkt.
Du musst das testen, du musst das orchestrieren und so weiter und so fort.
Und dafür wiederum hätten wir eine oder haben wir eine Eine Testing-Plattform.
Das heißt, du kannst sowohl bevor du live gehst testen, als auch wenn du live bist, wenn der Kunde dann in Europa zugestimmt hat, existierende Konversationen analysieren und dann daraus richtige Schlüsse zu treffen, dann diesen Subagentenbaum besser zu orchestrieren, sodass eben diese Error-Rate nahezu null ist.
Und das sehen wir auch.
Am Schluss endest du mit 0,0 irgendwas Prozent Error-Rate.
Und man darf ja auch nie vergessen, wir reden jetzt gerade immer nur für Agent, AI versus menschlich, dass das auch im Einklang funktioniert.
Also ganz, ganz oft haben wir den Use Case, wo im ersten Schritt der KI-Agent dran ist, der dann für sich erstmal interpretiert, was wird hier eigentlich nötig und für die Sachen, die er gar nicht übernehmen kann oder weil, das ist kritisch, da muss ein Mensch dran sein.
geht das sofort weiter an den Menschen.
Genau, da gibt es so diese typischen Sachen.
Also der Human-in-the-Loop-Ansatz, also immer wenn so ein Agent sagt, hey, ich muss hier einen Gutschein rausgeben, irgendwie Geld bezahlen oder irgendwas passiert hier gerade, dass da irgendwo die Lampe angeht und dann ein Mensch nochmal mit seinem menschlichen Verstand rüber guckt und am Ende bestätigt, ja, du darfst dieses Rücksendetikett drucken, ja, du darfst diese Überweisung tätigen und so weiter und so fort.
Also, dass Mensch und Maschine irgendwie in Einklang arbeiten.
Auf der anderen Seite sage ich immer, wenn Menschen Fehler machen, dann kann man mit diesen Menschen sprechen und kann denen sagen, sagen, hey, das ist der Fehler, bitte nächstes Mal nicht nochmal machen.
Wenn Maschinen Fehler machen, sind die reproduzierbar in der Regel.
Dann kannst du, wenn du einmal herausgefunden hast, wie du so einen Chatbot Gutscheine entlocken kannst, dann kannst du das ja theoretisch automatisieren und einfach immer weitermachen, weil Maschinen dann ja nicht im Grunde direkt daraus lernen.
Bis die andere Seite das herausgefunden hat, dass das ausgenutzt wird und dann natürlich sehr schnell eine Anpassung vornehmen kann.
Du hattest eine Sache gesagt, ihr seid eine Research Company.
Ja, ihr forscht viel, ihr habt im Grunde die State-of-the-Art-Modelle, was Voice angeht.
Und daraus kreieren ja im laufenden Band Leute neue Use Cases.
Ja, das sind gar nicht mal nur die, die irgendwie mit Stimmen arbeiten und irgendwie Stimmen klonen, auch im Fraud-Bereich oder so.
Es sind ja tatsächlich...
Viele Startups, die ich gerade auch beobachte, die aus dem Boden springen, die zum Beispiel Customer Support Agents anbieten.
Die sind dann spezialisiert beispielsweise auf Hausverwaltung, auf Maklerbüros, auf Handwerkerjobs, Arztpraxen und so weiter.
Die nutzen ja im Grunde alle eure Technologie und bauen darauf auf eben neue Cases.
Beobachtet ihr das?
Wie ist das, wenn man irgendwie dann tatsächlich so ein Player ist, dass man sagt, okay, ihr ebnet hier mit eurer Technologie die Plattform für eine ganze Menge Startups, die gerade aus dem Boden kommen.
Steht ihr mit denen in Kontakt oder arbeitet ihr mit denen auch zusammen?
Wie ist da so die Zusammenarbeit mit euch?
Ja, also erstmal, uns macht das natürlich stolz.
Viele sind sich gar nicht bewusst, wie groß dieser Markt ist.
Also im Grunde genommen alle ersten AI-Companies, die es so gab, die wurden ja damals auf OpenAI aufgebaut.
Da war dann immer irgendwie ChatGPT dahinter.
So und jetzt auf einmal, wo wir Richtung Voice gehen, ist auf einmal immer Eleven Labs dahinter.
Und mittlerweile natürlich zu einem Ausmaß, wo wir auch mehrere Unternehmen als Kunden haben, die halt mit Milliarden bewertet sind, die auf unserer Technologie aufbauen.
Das heißt, auf der einen Seite ist es cool zu sehen, dass es Use Cases gibt, manchmal auch sehr spezielle.
die wir gar nicht so abdecken können mit unserer großen, weitgedachten Plattform für Spezial-Use-Cases.
Jetzt muss man aber auch sagen, es gibt natürlich auch unsere Core-Use-Cases, das sind diese ganze Kundeninteraktionsseite, wo wir sagen müssen, da lohnt es sich oft nicht, einen anderen Player zu nutzen, da sind wir einfach selber die Besten und auch von der Orchestrierung her die Besten.
Was diese Sub- ganz, ganz kleinen Use-Cases angeht, natürlich ist es momentan jetzt noch viel einfacher, Ein Startup zu benutzen, was die Rezeption einer Arztpraxis dir einfach zu nutzen anbietet, als jetzt ein neues System auf Elevenlabs aufzubauen.
Aber auch da, wir gehen jetzt mehr und mehr in Richtung so einer App-Store-Logik.
wo du mit einem Klick eigentlich auch diese Use Cases dann abdecken könntest.
Krass.
Ich finde die Entwicklung dahingehend auch spannend, weil ganz neue Use Cases gefunden werden mit der Technologie.
Also ihr stellt die Technologie zur Verfügung und dann gibt es beispielsweise, ich hatte das jetzt tatsächlich, ich habe vielleicht auch schon mal drüber gesprochen, aber ich muss das einfach nochmal erzählen, irgendwie angerufen bei so einem Callcenter-Agent und das war eine KI-Stimme und das war auch klar, als so eine zu identifizieren.
Und als ich dann irgendwie meine Daten angegeben hatte, dann hatte sie gesagt, ja, da muss eben mal nachschauen.
Und dann kam so ein Einspieler von Tastaturklicken.
Mir war bewusst, das ist eine KI, die jetzt gerade im Reasoning-Prozess ist.
Also offenbar irgendwie überlegt, was sie als nächstes antwortet.
Und das wurde...
das wurde überbrückt mit so einem Einspieler von dem Tastaturklicken, was ich so geil fand, da ist mein User Experience Herz kurz stehen geblieben, muss ich sagen, weil ich finde es einfach genial.
Sind das so Cases, wo ihr auch Advice für gebt und sagt, ja, wenn ihr so ein Voice Engine mit uns aufsetzt, dann gibt es diese Best Practices, die könnt ihr nutzen oder kennst du vielleicht noch andere coole Beispiele, wie das dann...
umgesetzt wird?
Ja, also das ist natürlich jetzt ein super Use Case, wo du das mal demonstriert.
Es gibt viele Kunden, die aber auch sagen, wir wollen das gar nicht, muss man dazu sagen.
Aber jetzt sind wir wieder bei unseren Modellen.
Wir haben natürlich auch ein Sound-Effect-Modell.
Das heißt, du kannst dann in dem Master-Prompt eines Agenten eingeben, in so Klammern dahinter, ich hätte jetzt gerne Tastatur tippen oder Moment, ich ruf mal kurz beim Kollegen an und dann hörst du so, wie der mit einem Kollegen redet.
Dabei redet der gar nicht mit einem Kollegen.
Also du kannst da super kreativ und flexibel sein.
Sound-Effekte einbinden.
Ich glaube aber, wenn wir nochmal bei diesem Use-Case-Thema bleiben, ist es ganz oft so, dass wir mit Unternehmen anfangen zu arbeiten, meistens mit Kundensupport-Lösungen und die dann ganz schnell realisieren, oh, das kann aber auch gut sein für Training oder für den Use-Case und für den Use-Case.
Und einen spannenden, den habe ich erst letztens in Barcelona erlebt mit der Deutschen Telekom.
Denn mit der haben wir auch ganz klein angefangen.
Am Anfang war die Idee erstmal, lass doch einfach mal dem Gros der Leute, die die Magenta-App nutzen, die Möglichkeit bieten, selber ihre eigenen Podcasts zu erstellen.
Über ihre Stadt oder so weiter.
Kleiner Use Case.
Dann ist das reingewandert in natürlich Kundensupport, dass du mittlerweile mit sehr vielen, also ich glaube auf der App, aber dann bald auch telefonisch, mit Eleven Labs eben agierst als Magenta-Kundensupport.
Mittlerweile ist aber das nächste Projekt, dass wenn du Chinesisch sprichst und die andere Person nur Deutsch, dass du die chinesisch sprechende Person auf Deutsch hörst.
Und zwar in der Phone-Verbindung.
Also wenn du mich jetzt anrufst und andere Sprache sprichst als ich, höre ich dich trotzdem in meiner nativen Sprache.
Und so kommen diese Unternehmen natürlich mit wahnsinnig vielen...
Neun Ideen, die sie dann versuchen zu implementieren.
Und ich finde, das ist ein besonders cooler.
Ein anderer cooler auch bei der Deutschen Telekom.
Ja, das ist ja biblisch.
Turmbau zu Babel, oder nicht?
Jeder Mensch versteht jeden auf der Welt, ohne eine Fremdsprache lernen zu müssen.
Das ist wirklich ein biblischer Use Case, oder?
Klar, und auch das hat noch so seine Tücken.
Die Latency ist noch nicht ganz optimal.
Du musst noch ein bisschen warten.
Real-Time, Real-Time.
Aber diese Latency, die wird immer besser und besser und besser und dann hast du das.
Wirklich keine Sprachbarrieren mehr.
Würdest du deinen Kindern, ich weiß nicht, ob du Kinder hast, oder würdest du denen noch raten, Fremdsprachen zu lernen?
Ich glaube, also aus Interesse her würde ich das immer raten.
Aber ich glaube nicht, dass es noch gebraucht wird.
Und ich zum Beispiel vor Eleven Labs habe ich für einen Private Equity vorgearbeitet, der französisch war.
Und es ist ja schon so, dass die Franzosen sehr ungern Englisch reden oder andere Sprachen.
Und es war wirklich eine große Herausforderung mit der Language-Barriere.
Und boah, hätte ich mir manchmal in Online-Meetings oder allen Arten von Meetings so eine Art Übersetzer gewünscht, wo einfach die Kommunikation, auch die Tonation und die Kultur, die du benutzt, einfach mitgetragen würde.
Sagt man ja auch gern als Standortnachteil für die Europäische Union, dass einfach Englisch hier nicht so weit verbreitet ist.
Genau.
Und das Tolle an diesen Modellen ist ja, Wir kennen alle diese ursprünglichen Google-Translate-Übersetzungen und so weiter.
Irgendwas stimmt da immer nicht und so weiter.
Aber mittlerweile ist es nicht nur so, dass die Übersetzungen wahnsinnig echt sind, sondern dass auch die Emotion, die mitgeliefert werden soll, wahnsinnig echt ist.
Und wenn wir dann eben, egal ob das jetzt Agenten sind oder übersetzte Nachrichten oder so weiter hören, es geht halt genau auf das ein, wo du herkommst, emotional.
Bist du sauer, dann reagiert die andere Seite.
lieb und besorgniserregend, äh, besorgniserregend, äh, befürwortend, ne, und dich unterstützend, ne, also, Emotion spielt mittlerweile auch eine wichtige Rolle bei diesen Modellen.
Ja.
Aber könnt ihr Emotionen auch erkennen?
Also, dass, wenn da jetzt jemand im Customer Support anruft und irgendwie richtig, richtig sauer ist oder so, also, das ist ja eigentlich der nächste Schritt, dass man das dann raushört, oder nicht?
Genau, können wir.
Ja.
können wir dann auch entsprechend interagieren, entweder mit dem Agenten oder dann halt direkt eskalieren an den Menschen.
Ich glaube, der AI-Act tritt ja jetzt im August in Kraft und da gibt es ja unter verbotenen Systemen, die sind ja glaube ich jetzt seit Februar schon intakt, da gibt es glaube ich auch diese Emotionserkennung am Arbeitsplatz.
Also was man dann irgendwie hin und wieder dann hört, dass da geguckt wird, wie happy bist du in deiner Arbeit, dann wird mal hin und wieder ein Screenshot irgendwie gemacht oder geguckt in deiner Kamera, was für Emotionen hast du auch vielleicht in der Stimme und so.
Könntet ihr rein theoretisch machen, aber da ist doch Europa dann eigentlich nicht der Markt für.
Nee, der AI-Act, der unterteilt ja auch in unterschiedliche Bereiche.
Also ganz laienhaft gesagt, in unkritische, mittelkritische und hochkritische Bereiche.
Hochkritische vielleicht Healthcare oder sowas.
Und das ist erstmal so die Grundlage, die definiert, inwieweit oder wie weit darf deine KI überhaupt gehen.
Und jetzt ist es für uns ganz klar, dass in einem Healthcare-Bereich oder anderen hochkritischen Bereichen wir sehr, sehr restriktiv sein müssen mit der Technologie und wie sie von unseren Kunden angewendet werden darf.
Dagegen in unkritischen Bereichen müssen natürlich die Mindestanforderungen erfüllt sein.
Aufklärung, dass du mit einer KI redest und so weiter und so fort.
Aber da sind wir aktiv drin, dass wir das...
so einschränken, dass es auch dem KI entspricht.
Glaubst du, das wird ein Downer, wenn dann im August jede Versicherung, jede Hausverwaltung und so weiter, die man anruft, einem erstmal sagt, hey, Disclaimer, du redest jetzt erstmal mit einer KI, wenn du damit einverstanden bist, dann sag ja oder nein oder wie auch immer, dass Leute da vielleicht dann eher schon Opt-out nehmen und sagen, boah, nee, mit einer KI reden, gar keinen Bock, obwohl es ihnen unter Umständen gar nicht aufgefallen wäre, wenn dieser Disclaimer nicht da gewesen wäre.
Glaubst du, das wird den Markt nochmal so ein bisschen einschränken?
Ich glaube ja.
Also ich glaube, es ist auch jetzt schon ein Downer, wenn du beim Kundensupport anrufst und dann wird dir erstmal fünf Minuten irgendwas vorgelesen.
Ich verstehe, wo die EU, das sind ja meistens EU-Normen, wo die herkommt damit.
Aber ich glaube, es ist niemandem geholfen mit der Art und Weise, wie es gemacht wird.
Schon jetzt nicht.
Es wird spannend zu sehen, wo es in der Zukunft dann hingeht, auch Richtung AI-Act.
Ich glaube, es...
soll trotzdem nicht davon abhalten, dass wir regulatorisch so gut aufgestellt sein müssen, dass eben kein Schmuck betrieben wird.
Aber jetzt haben wir genug Beispiele in der EU, wo man sagen muss, das ist nicht hilfreich.
Ein Cookie-Banner.
Ja, danke.
Vor zehn Jahren oder vor 15 Jahren, als ich noch studiert habe, habe ich mal einen kleinen Rechtsstreit mit der Deutschen Bahn bekommen, weil ich mein Ticket einlaminiert hatte, was ich sechs Wochen nutzen musste, um zum Praktikum nach Frankfurt zu pendeln.
Und irgendwo auf Seite 380 in den AGB der Deutschen Bahn stand, dass man sein Ticket nicht einlaminieren darf.
Und da muss man halt schon sich irgendwann mal fragen, ist es denn einem Laien wie uns noch zumutbar, vor einer Bahnfahrt 700 Seiten AGB zu lesen und zu verstehen, um perfekt anwenden zu können.
Und ich glaube, da sind wir wieder ein bisschen zu europäisch.
Es muss irgendwie auch noch anwendbar sein.
Und was deine andere Frage angeht, ist es ein Downer?
Ja, aber es ist natürlich auch ein Downer, wenn du 40 Minuten in der Warteschlange bist.
Wir sehen da bei vielen Kunden Drop-off-Raten von 75, 80 Prozent von Leuten, die halt irgendwann einfach auflegen.
Und wenn ich dann die Wahl habe zwischen, ich hole mir eine Minute irgendwas an zum AI-Act und ich warte 40 Minuten.
Ich persönlich würde, glaube ich, eher den E-Jagd wählen.
Ja, das ist richtig.
Sehe ich genauso.
Und vor allem, wenn dann die Stimme Friedrich Merz ist und einem sagt, wann man seinen Bescheid bekommt.
Goldian, vielen Dank, dass du hier warst bei uns.
Max, ich danke dir.
Es hat Spaß gemacht.
Vielen lieben Dank.
Bis dann.
Mach's gut.
Bis dann.
Ciao.
Ja, liebe Leute, ich kündige es einfach mal an.
Ihr hört jetzt gerade hier nicht meine echte Stimme, sondern sie ist geklont mit Eleven Labs und ich habe einfach eingegeben, was ich sagen möchte.
Und das, was ihr jetzt hört, ist im Grunde genau das Ergebnis.
Ich finde es irgendwie ziemlich fancy, dass das funktioniert und darf das natürlich machen, weil ich die Rechte an meiner Stimme habe und im Grunde auch das Ganze freigebe für Eleven Labs.
Und jetzt bleibt mir noch übrig, meine KI-Stimme aufzufordern, mit meiner lieben Kollegin einmal darüber zu sprechen.
Das ist so absurd, wie sie denn eigentlich die Folge fand.
Liebe Kollegin, kannst du mir die Folge vielleicht einmal in 20 Sekunden zusammenfassen?
In der Folge ging es um Voice Cloning mit KI.
Von den Anfängen über ethische Fragen bis hin zu Business Use Cases.
Es ging um Sicherheitsmaßnahmen, lizenzierte Stimmen und Zukunftsvisionen wie Echtzeitübersetzung.
Und ganz ehrlich?
Das hat für mich fast wie der echte Max geklungen.
Ich hätte es nicht gemerkt.
Danke dir, klar sagst du das.
Ja, Leute, es ist verrückt, was möglich ist.
Hier ist der echte Max wieder.
Hi, der KI-Max hat jetzt Sendepause.
Es ist krass, also wirklich 30 Sekunden einfach meine Stimme aufgezeichnet und dann Sachen im Textfeld eingegeben und zack war das Ding da.
Es gibt dann natürlich noch Regler, an denen man rumstellen kann, wie die Geschwindigkeit, Stabilität, wie ähnlich das Ganze wirklich zu der Aufnahme auch klingen soll.
Und das geht mit Sicherheit auch noch deutlich besser.
Ich habe das jetzt erstmal in den Standardeinstellungen gelassen, ohne mich wirklich tiefer damit zu befassen.
Aber da geht eine ganze Menge und es ist spannend zu sehen, wie Tools sich entwickeln, was da tatsächlich alles möglich ist.
Und auch umso besser zu sehen, wenn sich Unternehmen tatsächlich auch Gedanken darüber machen, wie das Ganze genutzt bzw.
ausgenutzt werden kann.
Ich glaube, zumindest nach dem Gespräch heute mit Gordian.
ist da Eleven Labs auf einem guten Weg.
Wir werden das weiter beobachten.
Am Ende des Tages muss man aber auch sagen, liegt es an uns, wie wir diese Technologie benutzen.
Und ich glaube, da können wir jeder für uns selbst auch mal in uns gehen und fragen, was ist da eigentlich okay, was ist unsere eigene Grenze?
Und es ist wichtig, darüber auch zu sprechen.
Haben wir hiermit getan.
Vielen lieben Dank fürs Zuhören diese Woche.
Wir sprechen uns nächsten Dienstag wieder oder Freitag zur Snackbox-Folge.
Kommentiert gerne, wenn ihr Fragen habt.
Folgt diesem Podcast, abonniert ihn und ansonsten bis dahin.
Macht's gut.
Ciao, ciao.
Dieser Podcast wird produziert von Podstars bei OMR.