Als ElevenLabs im Mai 2025 eine Conversational-Chat-API in seine Plattform schob — kein Launch-Event, kein Blogpost, nur eine neue Zeile in der Dokumentation — hätte man das als Feature-Ergänzung abtun können. Noch ein Tech-Unternehmen, das ein Häkchen auf der Feature-Liste setzt. Ich habe den Fehler gemacht, genau das zu denken.
Drei Wochen später saß ich mit dem Head of Sales eines mittelständischen Versicherers zusammen, der mir beiläufig erzählte, sein ElevenLabs-Ansprechpartner habe ihm „auch eine Chat-Lösung" angeboten. Nicht als Nebensatz. Als Paket. Voice plus Chat, eine Plattform, ein Vertrag, ein Ansprechpartner. Der Preis? Aggressiv. Die Demo? Überzeugend genug, dass der Mann zum ersten Mal seit zwei Jahren seinen bestehenden Chatbot-Vertrag in Frage stellte. Das war der Moment, in dem ich verstanden habe: Hier passiert gerade eine tektonische Verschiebung — und die meisten Chatbot-Anbieter haben sie noch nicht auf dem Schirm.
Der Mai, in dem alles kippte
Rückblickend lässt sich der Wendepunkt auf wenige Wochen eingrenzen. Am 29. Mai 2025 veröffentlichte ElevenLabs seine „Multimodal Conversational AI" — Agenten, die mit einem einzigen Toggle zwischen Voice und Text-Chat wechseln. Am selben Tag ging Vapis Chat-API live, mit identischer Konfiguration für Sprache und Text. Vier Wochen zuvor hatte Bland AI ein Chat-Widget gelauncht, das dieselben Voice-Pathways im Browser nutzt. Retell AI folgte Anfang Juni mit SMS- und Chatbot-Agenten. Innerhalb von sechs Wochen hatten praktisch alle relevanten Voice-AI-Startups Chat als Kanal ergänzt. Das war keine koordinierte Aktion — es war die gleichzeitige Erkenntnis, dass der Chatbot-Markt reif für die Übernahme ist.
Im August zog Parloa nach. Das Berliner Unternehmen, das mit 3 Milliarden Dollar bewertet wird und für Allianz, Booking.com und SAP arbeitet, schaltete seine Chat-API frei. Die Botschaft an Bestandskunden: Ihr braucht keinen separaten Chatbot-Anbieter mehr.
Quellen: ElevenLabs Blog, 29.5.2025 · Vapi Chat-API · Bland AI Chat · Retell AI · Parloa Product Updates
Die Asymmetrie, die alles erklärt
Warum ist diese Expansion so gefährlich für die Chat-Seite? Weil die technische Asymmetrie brutal ist. Für ein Voice-AI-Unternehmen ist Chat ein gelöstes Problem. Man nimmt ein LLM, hängt RAG dran, baut ein Widget — fertig. Die Differenzierung im Chat liegt längst nicht mehr in der Technologie, sondern in der Integration, im Wissensmanagement, in den Workflows. Aber für einen ersten Pitch beim Kunden reicht „gut genug" vollkommen aus.
Umgekehrt ist Voice für einen Chatbot-Anbieter kein gelöstes Problem. Echtzeit-Sprachverarbeitung mit Latenz unter 500 Millisekunden, Barge-In-Erkennung, Emotionserkennung, Noise Cancellation, Telefonie-Integrationen mit SIP-Trunks und Carrier-Anbindung — das ist ein komplett anderer Tech-Stack. Führende Anbieter haben die Sprachlatenz mittlerweile unter 100 Millisekunden gedrückt — die Schwelle, ab der ein Gespräch sich natürlich anfühlt. Man baut das nicht in einem Quartal nach.
Die Voice-Player können also nach unten expandieren. Die Chat-Player können nicht so einfach nach oben.
Quelle: a16z: AI Voice Agents 2025 Update
Die Zahlen hinter dem Angriff
Die Dimension wird erst klar, wenn man sich die Finanzierung ansieht. Die Venture-Capital-Investitionen in Voice-AI haben sich 2024 verachtfacht: von 315 Millionen Dollar im Jahr 2022 auf 2,1 Milliarden Dollar. Das ist kein inkrementelles Wachstum — das ist eine strukturelle Neubewertung der gesamten Kategorie. Und dieses Geld wird nicht primär in Forschung gesteckt. Es wird in Sales-Teams investiert.
ElevenLabs — mit 330 Millionen Dollar ARR und einer Bewertung von 11 Milliarden Dollar der Platzhirsch — hat seine Belegschaft in zwölf Monaten um 190 Prozent aufgestockt. Von den zuletzt 100 offenen Stellen entfielen 23 Prozent auf Sales — die größte einzelne Kategorie, noch vor Engineering mit 12 Prozent. Das Unternehmen baut Büros in Paris, Singapur, Brasilien und Mexiko. Jeder dieser Standorte ist ein Sales-Hub.
Parloa hat im Januar 2026 eine 350-Millionen-Dollar-Runde geschlossen — explizit für die „globale Expansion in den USA und Europa". In der Praxis heißt das: amerikanische Enterprise-Sales-Teams aufbauen, die bei genau den Kunden anklopfen, die heute Zendesk oder Intercom nutzen. Die Netto-Revenue-Retention von 150 Prozent zeigt, dass die Land-and-Expand-Strategie funktioniert: Wer einmal Voice kauft, kauft bald auch Chat.
Sierra AI, gegründet von Ex-Salesforce-CEO Bret Taylor, hat 100 Millionen Dollar ARR in nur 21 Monaten erreicht — eine der schnellsten Wachstumsgeschichten in der Enterprise-Software überhaupt. Die Bewertung liegt bei 10 Milliarden Dollar. Sierras Pitch ist radikal simpel: ein Agent, alle Kanäle — Voice, Chat, SMS, WhatsApp, E-Mail. Ein Vertrag.
Retell AI meldete im Januar 2026 über 40 Millionen Dollar ARR und positioniert sich als „erste Lösung, die Voice, Chat, E-Mail und SMS in einer Plattform für Contact Center vereint."
Quellen: PYMNTS/Crunchbase · TechCrunch: ElevenLabs $330M ARR · CNBC: ElevenLabs $11B · TechCrunch: Parloa $3B · TechCrunch: Sierra $100M ARR · GlobeNewswire: Retell AI
Der Pitch, der Chatbot-Verträge killt
Das Verkaufsgespräch dieser Unternehmen folgt einem Muster, das erschreckend effektiv ist:„Sie haben schon unsere Voice-Lösung. Warum betreiben Sie den Chat über einen separaten Anbieter? Wir können beides. Eine Wissensbasis, ein Reporting, ein Vertrag. Und übrigens — wir sind günstiger."
Gartner hat diesen Trend im Dezember 2024 in eine Prognose gegossen, die für Chatbot-Anbieter wie ein Alarmsignal klingen sollte: Bis 2028 werden 30 Prozent der Fortune-500-Unternehmen ihren Kundenservice über nur noch einen einzigen, KI-gestützten Kanal abwickeln — einen Kanal, der Text, Bild und Sprache gleichermaßen versteht.
Das bedeutet: Unternehmen wollen konsolidieren. Sie wollen nicht drei Anbieter für drei Kanäle. Und wenn der Voice-Anbieter alles aus einer Hand liefert und der Chatbot-Anbieter nur Text kann, ist die Entscheidung keine schwere.
Quelle: Gartner Press Release, 11.12.2024
Die Chatbot-Seite reagiert — aber reicht es?
Die etablierten Chatbot-Anbieter sind nicht blind. Aber ihre Antworten fallen sehr unterschiedlich aus.
Zendesk hat am aggressivsten reagiert. Im Oktober 2024 ging das Unternehmen eine Partnerschaft mit dem Voice-Spezialisten PolyAI ein. Im Mai 2025 übernahm Zendesk den australischen CCaaS-Anbieter Local Measure und integrierte ihn als „Zendesk for Contact Center" — ein vollwertiges Voice-Produkt. Zendesks AI-ARR liegt bei 200 Millionen Dollar und soll 2026 auf 500 Millionen steigen. Das ist beeindruckend. Aber es ist eine nachholende Bewegung, keine führende.
Intercom launchte im März 2025 „Fin Voice" — gebaut in 100 Tagen, 28 Sprachen, gleiche Wissensbasis wie der Chat-Agent. Seit dem Pioneer-Event Mitte 2025 positioniert sich Intercom als „Unified Customer Agent" über alle Kanäle. Die Richtung stimmt, aber Intercoms Bewertung stagniert bei 1,3 Milliarden Dollar — ein Bruchteil der Voice-Konkurrenz.
Ada war am frühesten dran: Voice seit Mai 2023, omnichannel seit Oktober desselben Jahres. Aber Ada fehlt die Marktpräsenz, um gegen die finanziell überlegenen Voice-Player anzutreten.
Freshworks setzt auf Partnerschaften statt eigener Technologie — Synthflow übernimmt die Voice-Automatisierung für Freshcaller. Das funktioniert, schafft aber Abhängigkeiten und Bruchstellen in der Customer Journey.
Und dann gibt es die Verlierer. LivePerson, einst dominant im Enterprise-Chat, wurde im Gartner Magic Quadrant 2025 zum „Niche Player" herabgestuft. Drift, das mit über einer Milliarde Dollar bewertet war und 135 Millionen ARR erreicht hatte, wurde Anfang 2024 unter Druck an Salesloft verkauft — nachdem es 159 Mitarbeiter entlassen und gegen 160 Konkurrenten auf G2 verloren hatte. Drift ist die Warnung. Ein Kategorie-Leader, der die Kanalkonvergenz verpasst hat.
Quellen: Zendesk/PolyAI · Zendesk/Local Measure · Zendesk AI ARR · Intercom Fin Voice · Intercom Fin 3 · Gartner MQ 2025 · Salesloft/Drift
Die 955-Millionen-Dollar-Warnung
Wer verstehen will, wohin der Markt läuft, muss sich eine Zahl merken: 955 Millionen Dollar. So viel zahlte NICE Systems im September 2025 für Cognigy — den deutschen Conversational-AI-Spezialisten mit geschätzten 37 Millionen Dollar Umsatz. Das ist ein 25-faches Umsatz-Multiple.
NICE — ein großer Contact-Center-Infrastrukturanbieter — hätte die Technologie selbst bauen können. Stattdessen zahlte man einen dramatischen Aufpreis, um Voice und Chat in einer Plattform zu vereinen. Aragon Research nannte die Übernahme „den Beginn einer Konsolidierungswelle im KI-Agenten-Markt."
Die Botschaft ist eindeutig: Eigenständige Chatbot-Plattformen werden entweder übernommen, oder sie werden überflüssig.
Quellen: CX Today: NICE/Cognigy · Aragon Research
Was Chatbot-Anbieter jetzt tun müssen
Ich sage nicht, dass klassische Chatbot-Anbieter verloren haben. Viele haben tiefere Integrationen, besseres Domänenwissen und jahrelange Kundenbeziehungen. Das zählt. Aber es zählt weniger, als man denkt, wenn jemand mit einem glänzenden Demo-Video, einem aggressiven Preis und einem 23-Prozent-Sales-Team im Raum steht.
Erstens: Voice muss auf die Roadmap — nicht als Innovation, sondern als Verteidigung. Es geht nicht darum, den besten Voice-Bot der Welt zu bauen. Es geht darum, dem Bestandskunden keinen Grund zu geben, den Anbieter zu wechseln. Ein solides Voice-Angebot — auch über Partnerschaften — ist besser als keins. Freshworks macht es mit Synthflow vor, auch wenn das nicht die eleganteste Lösung ist.
Zweitens: Die Sales-Mannschaft muss wissen, was kommt. Jeder Account Manager sollte wissen, ob sein Kunde bereits Voice-Gespräche mit ElevenLabs, Parloa oder Sierra führt. Wer das nicht aktiv abfragt, wacht eines Morgens mit einer Kündigung auf.
Drittens: Preisbündelung, bevor es der andere tut. Voice plus Chat als Paket ist ein Argument. Aber nur, wenn man es zuerst macht. Wer wartet, bis der Kunde fragt, hat den Verhandlungstisch schon verloren.
Der größere Kontext
Im Kern geht es nicht um Voice gegen Chat. Es geht um die Frage, wer die einheitliche KI-Schicht besitzt, über die Unternehmen mit ihren Kunden kommunizieren. Die Voice-Player haben verstanden, dass Chat der natürliche Erweiterungskanal ist — technisch trivial, kommerziell wertvoll, strategisch entscheidend.
Die Chatbot-Anbieter müssen dieselbe Erkenntnis in die umgekehrte Richtung vollziehen. Und sie müssen es schnell tun. Denn die Zahlen sprechen eine klare Sprache: Der Voice-AI-Markt wächst mit 34,8 Prozent pro Jahr, während der klassische Conversational-AI-Markt bei 23 Prozent liegt. Das Kapital fließt dorthin, wo das Wachstum ist. Die Sales-Teams folgen dem Kapital. Und die Kunden folgen den Sales-Teams.
71 Prozent aller Contact Center setzen bereits KI ein. Aber nur 25 Prozent haben die Automatisierung tatsächlich operationalisiert. Das heißt: Drei Viertel des Marktes sind noch offen. Die Frage ist nur, wer diese Kunden zuerst erreicht — der Chatbot-Anbieter, der Voice nachrüstet, oder der Voice-Anbieter, der Chat mitbringt. Aus meiner Beobachtung: Die Voice-Leute sind schneller. Und sie sind hungriger.
Quellen: Grand View Research · CMSWire/Observe.AI · Fortune Business Insights

.jpg)


