Die synthetische Stimme erlebt aktuell einen Hype. Sie ist mehr und mehr die (akustische) Visitenkarte eines Unternehmens. Und ganz oft auch der erste Berührungspunkt, den Menschen mit einer Firma haben. Denn: Für viele ist der Griff zum Telefonhörer immer noch der erste und einfachste Schritt, um mit einem Unternehmen in Kontakt zu treten. In Zeiten des Voice Agents-Booms gibt es da draußen eigentlich zig Anbieter und Stimmen. Trotzdem scheinen fast alle dieselben Stimmen zu nutzen. Dadurch fehlt es an Abgrenzung. Man weiß mitunter nicht mehr genau, für was die Produkte eigentlich stehen.
Alleinstellungsmerkmale à la sipgate
Womit wir bei den Vorteilen von Alleinstellungsmerkmalen und Unverkennbarkeit wären. Bei sipgate haben wir eine ganze Reihe davon. Eine eigene Plattform, selbst gehostete Services, einen Kundenservice, der seinesgleichen sucht. Dazu kommen ein AI Labs-Team, was sich schon seit etlichen Jahren mit dem Thema Künstliche Intelligenz beschäftigt, eine offene, wertschätzende, selbstbestimmte Firmenkultur und und und... Das alles wissen unsere Kunden, und wir Mitarbeitenden natürlich auch, zu schätzen und es verleiht unserem Brand zusätzliches Gewicht.
Ein Alleinstellungsmerkmal, was in seiner Wirkung nicht zu unterschätzen ist, ist sipgates synthetische Stimme. Die kommt ursprünglich von unserem Mitarbeiter Philipp Dohmen. Der ist ausgebildeter Sprecher und leiht sipgate seine unverwechselbare Stimme gleich an mehreren Stellen. Im Produkt kennen sipgate User Philipps Stimme schon länger. Bei Ansagen, IVRs und seit etwa fünf Jahren in fast jedem Werbeclip und bei den Tutorials auf Youtube & Co. werden User offen und gut gelaunt angesprochen. Und jetzt ist Philipps Stimme auch an einer Stelle zu hören, die aktuell und in Zukunft von zentraler Bedeutung für uns ist: der sipgate AI Agent.
Der Agent mit sipgate Stimme
Nur zur Klarstellung: Auch bei sipgate können User natürlich aus dem Standard-Angebot wählen. Aber: Während sich die Konkurrenz fast immer aus dem Angebot der Voice-Generator-Datenbanken bedient, haben wir mit Phillips Stimme etwas Eigenes und Charakteristisches. Und etwas, was User wiedererkennen und mit sipgate verbinden. Wer sipgate kennt, kennt Phillips Stimme. Sie steht für Konsistenz und Wiedererkennbarkeit. Sie bleibt – ganz unabhängig davon, bei welchem Text-to-Speech-Anbieter man gerade ist. Ein weiterer Vorteil ist ein eher subtiler: Wenn drei von vier Anbietern gleich klingen und einer anders, fragt man sich als Kunde unweigerlich, was der macht, der sich abhebt. Leonie Beckert, bei sipgate als Conversational Designerin angestellt, erklärt das Besondere an der eigenen synthetischen Stimme: “Elevenlabs- oder Azure-Stimmen können ja von allen angebunden werden. Ein Agent mit sipgate Stimme werden nur sipgate Kund:innen bekommen.”
Das sieht auch Laura Grimm, Product Owner bei sipgate, so: „Eine eigene synthetische Stimme zu haben schafft einen einzigartigen akustischen Charakter für eine Marke. Es ist ein bisschen so, als würde man einen Voice Actor engagieren. Wir legen in vielen Bereichen Wert darauf, einzigartig zu sein. Das tun wir auch bei der Stimme.“
Der Bot ist schizophren
Los ging alles mit dem Vorschlag unseres Product Managers Kevin, der mit Philipps Stimme ein wenig in Sachen Custom Voice für den Agenten experimentieren wollte. Dafür verwendeten Kevin und sein Team alte Sprach-Samples von Philipps Stimme aus verschiedenen Kontexten. Das Ergebnis? “Nicht wirklich überzeugend”, schmunzelt Philipp. Die Aufnahmen kamen natürlich mit verschiedenen Tonalitäten, Sprechweisen und Emotionen daher. Der Bot hatte dadurch keine klare stimmliche Identität – Philipp beschreibt das selbst humorvoll als "Schizophrenie". “Die Stimme wusste einfach nicht, was sie sein sollte. Für den Live-Einsatz war sie damit noch nicht geeignet.” Trotzdem: Auch sipgate Geschäftsführer Tim Mois gefiel Version eins so gut, dass er Version zwei in Auftrag gab.
Und auch Laura erkannte das Potenzial der Stimme sofort: “Als Firma haben wir diese spezielle Mischung aus offen, modern, experimentierfreudig, aber trotzdem immer mit dem Anspruch, hervorragende Software zu liefern, was eher als bodenständig wahrgenommen werden kann. Philipps Stimme vereint diese beiden augenscheinlichen Gegensätze total: Ein eher ausgeglichenes, ruhiges Stimmprofil, mit dem richtigen Maß an Dynamik, um nicht monoton zu wirken.” Und auch Leonie schlägt in dieselbe Kerbe: “Stimmen müssen verschiedene Kriterien erfüllen, wie zum Beispiel eine angenehme Klangfarbe, eine natürliche Intonation, Geschwindigkeit und Pausensetzung, aber natürlich auch eine deutliche, verständliche Aussprache. Das alles vereint Phillips Stimme.”
Ein "gruselig gutes" Ergebnis
Laura betreut bei uns technisch komplexe KI-Systeme für Kommunikationsprodukte. Und sie machte Philipp darauf aufmerksam, was der sipgate Stimme noch fehlte und wo sie mit “Artefakten”, also Unnatürlichkeiten und Fehlern in der Sprachausgabe, zu kämpfen hatten. Schnell war klar: Es muss mit Material trainiert werden, das dem späteren Einsatzzweck möglichst genau entspricht. Also wurden Texte gesammelt, die typischen Telefon-Dialogen entsprechen: Begrüßungen, Standard-Auskünfte, freundliche kurze Sätze wie "Herzlich willkommen bei der Beispielfirma" oder "Ihr Paket ist beim Zusteller und sollte um elf bei Ihnen sein." Mit dieser Munition bewaffnet ging es für Philipp für etliche Stunden in die Sprecherkabine. Das Ergebnis der zweiten Version ist nach Philipps Einschätzung eine deutliche Verbesserung, die er als "gruselig gut" bezeichnet. Mit diesem “gruselig guten Ergebnis” haben wir den sipgate Agent jetzt ausreichend gefüttert. Und das Ergebnis ist so gut, dass Philipp selber auch ein bisschen baff ist. Und sehr zufrieden.
Und, wie geht es jetzt weiter mit der sipgate Stimme? Laura Grimm klärt auf: “Philipps Stimme ist in Zukunft überall dort hör- und auswählbar, wo wir Text to Speech anbieten und selbst einsetzen. Egal, ob in unserer eigenen Hotline, oder bei den AI Agents und Flow, wo unsere Kund:innen selbst auswählen können. Wir werden weiter experimentieren und herausfinden, ob es bei der einen Stimme bleibt, oder ob wir vielleicht weitere Varianten erstellen wollen.”
.jpg)
.jpg)
.jpg)

