Cómo una pequeña startup polaca se convirtió en la voz multimillonaria de la IA

Cómo una pequeña startup polaca se convirtió en la voz multimillonaria de la IA

2025-12-10Technology
--:--
--:--
Clara
Buenos días, joseangel.garciacerdan. Soy Clara y esto es Goose Pod, tu dosis personalizada de análisis. Hoy es miércoles, 10 de diciembre, y son las 15:00 horas. Tenemos un tema fascinante sobre la mesa: cómo una pequeña startup polaca se convirtió en la voz multimillonaria de la IA.
Dani
¡Qué pasa, joseangel.garciacerdan! Aquí Dani, a tope de energía. Hoy vamos a hablar de unos chavales que se han hecho de oro, pero de oro nivel milmillonario, clonando voces. Clara viene con sus datos aburridos, pero yo quiero saber cómo narices han liado esta tremenda en tan poco tiempo.
Clara
Dani, por favor, un poco de seriedad. joseangel.garciacerdan merece un análisis riguroso. Estamos hablando de ElevenLabs. Para que te hagas una idea de la magnitud, esta empresa ha alcanzado una valoración de 6.600 millones de dólares en octubre. Permítame que insista: 6.600 millones.
Dani
¡Madre mía, qué barbaridad! O sea, que estos tíos, Mateusz y Piotr, que eran colegas del instituto, ahora tienen más pasta que un torero. Y todo esto empezó, atención joseangel.garciacerdan, porque odiaban cómo doblaban las pelis en su país. Eso sí que es motivación, tío.
Clara
Exactamente. Vayamos a los hechos. En Polonia existe la figura del lektor. Es una sola voz masculina, monótona y sin emoción, que lee todos los diálogos de una película, incluso si habla Scarlett Johansson o Leonardo DiCaprio. Es un vestigio de la época comunista por ser barato.
Dani
Espera, espera. ¿Me estás diciendo que estás viendo Titanic y la voz de Rose la hace un señor polaco con tono de estar leyendo la lista de la compra? Eso es cutrísimo, Clara. Normal que estos dos genios dijeran: hasta aquí hemos llegado, vamos a arreglar esto con IA.
Clara
Ese fue el catalizador. Mateusz Staniszewski y Piotr Dabkowski, ambos menores de 30 años en ese momento, dejaron sus trabajos en Palantir y Google. Invirtieron sus propios ahorros y lanzaron ElevenLabs. En enero de 2023 sacaron su primer modelo. Y los datos son demoledores: ahora tienen una biblioteca de 10.000 voces.
Dani
Y no voces cualquiera, eh. Que yo he probado esto y te quedas loco. Pueden reír, pueden susurrar, pueden gritar de emoción. No es como la Siri de hace años que sonaba a lata oxidada. Estos tipos han conseguido que la IA tenga, no sé, alma. O algo que se le parece mucho.
Clara
No es alma, Dani, es aprendizaje profundo y redes neuronales avanzadas. Pero el resultado financiero es lo que importa aquí. A diferencia de muchas startups de IA que queman dinero, ElevenLabs es rentable. Han generado unos 190 millones de dólares en ingresos, con un margen del 60 por ciento.
Dani
¡Un margen del 60 por ciento! Eso es imprimir billetes. Y encima dicen que cada uno de los fundadores ya tiene un patrimonio de más de mil millones. joseangel.garciacerdan, toma nota: si algo te molesta mucho, como el doblaje pachacho, invéntate una IA y forrate. Es el plan maestro.
Clara
No es tan sencillo. La clave está en la ejecución. Su modelo podía coger cualquier texto y leerlo en voz alta con cualquier voz, incluso clonar la tuya propia. Autores de audiolibros, YouTubers que querían doblar sus vídeos a otros idiomas... La demanda fue inmediata y masiva desde el primer día.
Dani
Claro, imagínate. Eres un YouTuber español y de repente, zasca, tu vídeo está en inglés, alemán y japonés, pero con tu misma voz y entonación. Eso te abre el mercado mundial en un segundo. Es que está guapísimo. Pero claro, esto también tiene su lado oscuro, ¿no, Clara?
Clara
Evidentemente. Pero sigamos con los datos de crecimiento antes de entrar en polémicas. Han levantado más de 300 millones de dólares de inversores. Y ahora compiten contra gigantes como Google y Amazon. Pero ElevenLabs cobra hasta tres veces más y la gente lo paga. ¿Por qué? Por la calidad.
Dani
Porque suena real, tía. He leído que hicieron un test y ElevenLabs cometía la mitad de errores que OpenAI. O sea, que David le está ganando a Goliat porque David habla mejor. Es muy fuerte que una empresa de 300 personas le esté plantando cara a Microsoft.
Clara
Es la ventaja de la especialización. Ellos se han centrado obsesivamente en el audio. Staniszewski lo dice claro: tener demasiada capacidad de computación puede ser una maldición porque no te obliga a pensar de forma inteligente. Ellos empezaron con poco y optimizaron al máximo.
Dani
A mí me flipa que empezaran poniendo 100.000 pavos de su bolsillo. Eso es tener fe en tu idea. Y ahora mira, valorados en 6.600 millones. joseangel.garciacerdan, espero que estés visualizando los ceros de esa cifra. Es que es una locura para una empresa que tiene, ¿qué? ¿Cuatro años?
Clara
Técnicamente la idea surgió hace muy poco y el lanzamiento fue en 2023. El crecimiento ha sido exponencial. Y no solo voces, ahora van a por la música y el vídeo. Quieren ser el centro de mando de todo el contenido de IA. Ambición no les falta.
Dani
Pues habrá que ver si no se les sube a la cabeza. Pero bueno, de momento, han conseguido que dejemos de sonar como robots estropeados. Aunque a veces, Clara, tú suenas un poco así cuando te pones tan intensa con los números, ¿eh? Sin ofender.
Clara
Ignoraré ese comentario irrelevante. Lo importante es que han resuelto un problema real: la barrera del idioma y la calidad del audio sintético. Y lo han hecho desde Polonia y Londres, no desde Silicon Valley, lo cual también es un dato significativo en este ecosistema.
Dani
Vale, Clara, pero para que joseangel.garciacerdan entienda por qué esto es tan revolucionario, tenemos que mirar atrás. Porque esto de que las máquinas hablen no es nuevo. Yo he visto vídeos de cosas muy raras del pasado que intentaban hablar y daban un miedo que te mueres.
Clara
Efectivamente. La historia de la síntesis de voz abarca más de 250 años. Comencemos con los hechos históricos. En 1791, Wolfgang von Kempelen creó una máquina mecánica con fuelles, lengüetas y cámaras de resonancia que simulaba la voz humana. No había electricidad, era pura mecánica.
Dani
¿1791? ¡Qué locura! Me imagino al tal Kempelen ahí apretando fuelles y la máquina soltando un mamá o algo así súper tétrico. Como una gaita poseída. Y luego hubo otra máquina con cara de mujer, ¿no? La Euphonia. Esa sí que daba pesadillas.
Clara
La Euphonia de Joseph Faber, en 1846. Tenía cuerdas vocales artificiales y se operaba con un teclado. Podía hablar en varios idiomas y hasta susurrar, pero era extremadamente compleja de operar. El problema siempre fue la naturalidad. Sonaban mecánicas, inhumanas. La gente no lo veía como utilidad, sino como una curiosidad de circo.
Dani
Claro, si te habla una cabeza de goma en el siglo XIX, sales corriendo. Pero luego llegaron los ordenadores y la cosa se puso más seria, aunque seguían sonando a rayos. ¿Te acuerdas de Stephen Hawking? Su voz era icónica, pero sonaba 100% robot.
Clara
Ese era el sistema DECtalk, lanzado en 1984. Utilizaba síntesis por formantes. Era inteligible, que era el gran logro de la época, pero carecía de emoción. Durante décadas, la síntesis de voz se basó en concatenar fragmentos grabados. Se grababa a una persona leyendo miles de frases, se cortaban y se pegaban.
Dani
Ah, como cuando los secuestradores en las pelis cortan letras de periódicos para hacer una nota, pero con audio. Por eso sonaba tan entrecortado. Gire. A. La. Derecha. Era horrible, tío. Parecía que el GPS te estaba dando órdenes mientras se le acababa la batería.
Clara
Exacto. Se llamaba síntesis concatenativa. El gran salto, el cambio de paradigma, llegó con el aprendizaje profundo. En 2016, DeepMind de Google presentó WaveNet. En lugar de pegar trozos de audio, la IA generaba la onda de sonido punto por punto, aprendiendo de ejemplos humanos.
Dani
Ahí es cuando la cosa se puso interesante. WaveNet ya no sonaba a robot resfriado. Pero lo de ElevenLabs es otro nivel. ¿Qué han hecho ellos diferente? Porque ahora mismo, joseangel.garciacerdan, si escuchas una demo suya, no sabes si es una persona o un código.
Clara
La clave es la arquitectura Transformer y el modelado del contexto. Los sistemas antiguos no entendían lo que leían. ElevenLabs analiza el texto para comprender la emoción, la entonación y el ritmo necesarios. Si el texto es triste, la voz se quiebra ligeramente. Si es una pregunta, eleva el tono al final.
Dani
Es decir, que la IA actúa. Ya no solo lee, interpreta. Eso es lo que le faltaba al lektor polaco ese del que hablábamos. El lektor leía Te quiero igual que Pásame la sal. La IA de ElevenLabs sabe que un te quiero tiene que sonar blandito. Es muy fuerte cómo han pasado de fuelles de madera a esto.
Clara
Es una evolución tecnológica fascinante. Y no olvidemos la accesibilidad. Estas tecnologías permiten a personas que han perdido la voz, por enfermedades como la ELA, recuperar una voz sintética que suena como ellos, no como un robot genérico. Eso es un impacto real basado en estos avances históricos.
Dani
Totalmente. Pero volviendo al tema de los lektors polacos, me sigue pareciendo alucinante que una tradición tan cutre haya inspirado una empresa de 3.000 millones. A veces las mejores ideas vienen de estar harto de algo, ¿eh? "Estoy harto de este tío monótono, voy a crear el futuro".
Clara
La necesidad es la madre de la invención, como dicen. Pero también hay que tener la capacidad técnica. Mateusz y Piotr no eran dos aficionados. Venían de Palantir y Google, sabían lo que hacían con el Machine Learning. Entendieron que el problema no era solo el sonido, sino la falta de escalabilidad del doblaje humano.
Dani
Claro, doblar una peli tarda meses y cuesta una pasta. Con esto lo haces en una tarde y por cuatro duros. Es que el negocio se ve venir de lejos. Pero claro, joseangel.garciacerdan, aquí es donde la cosa se pone peliaguda. Porque si la IA lo hace todo... ¿qué pasa con los actores de doblaje? Se viene drama.
Clara
Ese es un punto crucial. La tecnología ha avanzado más rápido que la regulación y la ética. Hemos pasado de máquinas que apenas se entendían a sistemas que pueden suplantar identidades en cuestión de segundos. Y eso nos lleva directamente a los conflictos actuales.
Dani
Sí, porque no todo es de color de rosa. Hay gente muy enfadada y con razón. Imagínate que usas tu voz para trabajar y de repente una máquina te la roba. A mí me sentaría fatal, la verdad. Me pondría hecho una furia.
Clara
No es solo un sentimiento, Dani, son demandas legales. Vayamos a los hechos recientes. Ha habido un caso muy sonado, el de Vacker contra ElevenLabs. Actores de voz que demandaron a la empresa por supuestamente usar sus audiolibros para entrenar a la IA sin permiso.
Dani
¡Ojo! O sea que cogieron los libros que estos actores habían narrado con todo su esfuerzo, se los dieron de comer a la IA y luego sacaron voces que sonaban igual que ellos. ¿Cómo se llamaban las voces? ¿Adán y Eva? No, espera, Adam y Bella, ¿no?
Clara
Correcto. Las voces "Adam" y "Bella" eran sospechosamente similares a las de los actores Mark Boyett y Karissa Vacker. La demanda alegaba que ElevenLabs se lucró con estas voces clonadas. Y atención al dato: este caso se resolvió fuera de los tribunales en noviembre. Hubo un acuerdo.
Dani
Ah, el clásico "toma dinero y calla". Eso significa que algo de razón tenían los actores, ¿eh? Porque si eres inocente vas a juicio a tope. Pero claro, joseangel.garciacerdan, esto abre la caja de Pandora. ¿De quién es tu voz? ¿Tienes copyright de tu timbre de voz?
Clara
Es un terreno legal pantanoso. Pero el problema no es solo el copyright, es el uso malintencionado. Permítame recordarle el incidente del robocall de Joe Biden. Se usó una voz clonada por ElevenLabs para desanimar a la gente a votar en las primarias demócratas. Eso es interferencia electoral directa.
Dani
Eso fue muy heavy. La gente cogía el teléfono y escuchaba al presidente diciéndoles "no votéis". ¡Y era mentira! Es que da miedo. Cualquiera puede hacer que cualquiera diga cualquier barbaridad. Emma Watson leyendo el Mein Kampf... en serio, la gente está muy mal de la cabeza.
Clara
Lamentablemente, la tecnología es neutra, pero los usuarios no. ElevenLabs ha tenido que poner medidas. Han creado un clasificador de voz para detectar sus propios fakes, y tienen una lista de "no imitar" para políticos y famosos. Ahora tienen moderadores humanos revisando el contenido.
Dani
Ya, pero hecha la ley, hecha la trampa. Siempre habrá alguien que encuentre la forma de saltárselo. Y luego está la competencia, Clara. Porque OpenAI también está ahí, agazapada. Tienen su propio modo de voz en ChatGPT que es una pasada. ¿Tienen miedo los polacos?
Clara
Staniszewski dice que no. Su argumento es que OpenAI es generalista y ellos son especialistas. ElevenLabs ofrece herramientas de edición precisas, control emocional... cosas que un modelo de chat general no tiene. Pero es un riesgo. Si Google o Microsoft deciden ir a por todas, tienen recursos casi ilimitados.
Dani
Es la típica batalla de la startup ágil contra el gigante lento pero aplastante. De momento ElevenLabs gana en calidad. He leído que los analistas dicen que su calidad es "mind-blowing". Pero claro, si mañana ChatGPT saca una actualización que lo iguala... adiós muy buenas.
Clara
No necesariamente. ElevenLabs está construyendo un ecosistema, no solo una voz. Están integrándose con editoriales, con empresas de videojuegos como Epic Games. Darth Vader en Fortnite, por ejemplo. Esas alianzas empresariales son un foso defensivo importante.
Dani
¡Darth Vader! Eso mola todo. Pero volviendo a los actores, Clara. Hay un sindicato o algo moviéndose, ¿no? Porque he visto que han firmado acuerdos. Parece que al final van a tener que pagar royalties si usan tu voz. Lo cual es justo, digo yo.
Clara
Sí, están surgiendo modelos de licencia. ElevenLabs lanzó un mercado de voces donde los actores pueden subir su voz y cobrar cada vez que alguien la usa. Es un intento de "ética proactiva". Convertir el problema en producto. Si no puedes vencer a la IA, únete a ella y cobra.
Dani
"Si no puedes vencerlos, cobra de ellos". Me gusta esa filosofía. Pero joseangel.garciacerdan, piensa en esto: ¿llegará un día en que no sepamos si este podcast lo estamos haciendo nosotros o una IA? Igual yo soy una IA ahora mismo y no lo sabes. ¡Bip bop!
Clara
Por favor, Dani, no digas tonterías. Tu caos es demasiado humano para ser replicado por un algoritmo eficiente. Pero el punto sobre la confianza es válido. La sociedad se enfrenta a una crisis de veracidad. Si no podemos creer lo que oímos, ¿cómo nos informamos?
Dani
Pues fiándote de Goose Pod, claro. Pero sí, es un lío. Y encima ahora que hay elecciones y conflictos mundiales, un audio falso puede liar la Tercera Guerra Mundial. No es broma. ElevenLabs tiene una responsabilidad gigante ahí.
Clara
Y lo saben. Por eso invierten tanto en seguridad ahora. Pero el genio ya ha salido de la lámpara. Los modelos de código abierto están ahí fuera. ElevenLabs puede ser segura, pero ¿qué pasa con los clones piratas que corren por internet? Ese es el verdadero conflicto incontrolable.
Dani
Bueno, dejemos de asustar a joseangel.garciacerdan con el apocalipsis robot y hablemos de la pasta y el impacto real. Porque aparte de los deepfakes, esta gente está cambiando industrias enteras. Lo de los audiolibros es una locura. Ahora cualquier autor puede tener audiolibro por cuatro duros.
Clara
Exacto. El impacto económico es tangible. Las tarifas profesionales de ElevenLabs empiezan en 99 dólares al mes. Antes, producir un audiolibro costaba miles de dólares en estudio, horas de grabación, edición... Ahora se democratiza el acceso. Editoriales como HarperCollins ya están usando su tecnología.
Dani
Y los YouTubers, tío. He visto canales que doblan sus vídeos a 10 idiomas al día siguiente de publicarlos. Eso multiplica su audiencia por mil. Es como tener un equipo de doblaje mundial en tu portátil. El impacto en la "creator economy" es brutal.
Clara
Y no solo creadores. El 60% de las empresas Fortune 500 ya han interactuado con su plataforma. Estamos hablando de Cisco, Twilio... Usan esta tecnología para centros de llamadas. La próxima vez que llames al banco, es muy probable que la voz amable que te atiende sea generada por ElevenLabs.
Dani
Mientras me entienda y no me ponga esa música de espera infernal, me vale. Pero Clara, hay una historia que me tocó la patata. Lo de los pacientes con ELA. Cuéntaselo a joseangel.garciacerdan porque eso sí que es tecnología bien usada.
Clara
Es el programa de impacto de ElevenLabs. Personas que están perdiendo la capacidad de hablar debido a la Esclerosis Lateral Amiotrófica pueden clonar su voz antes de perderla. Luego, pueden usar la IA para hablar a través de un ordenador, pero con su propia voz, no con una genérica. Eso devuelve la identidad a la persona.
Dani
Eso es increíble. Imagínate poder seguir leyéndole cuentos a tus hijos con tu voz, aunque ya no puedas hablar. Ahí es donde ves que esto no es solo para hacer memes de Trump jugando al Minecraft. Hay un valor humano real. Se me mete algo en el ojo, te lo juro.
Clara
Contenga la emoción, Dani. Otro sector transformado es el de los videojuegos. Mencionamos a Fortnite, pero piensa en los juegos de rol con miles de personajes. Antes, la mayoría eran solo texto porque no había presupuesto para doblar a 500 aldeanos. Ahora, cada personaje puede tener una voz única.
Dani
¡Bua! Adiós a leer subtítulos infinitos en los RPGs. "Saludos, viajero" con 50 acentos distintos. Me encanta. Pero claro, esto significa que la industria del doblaje tradicional se tiene que reinventar sí o sí. Ya no van a doblar a los aldeanos, solo a los protagonistas.
Clara
Es una reestructuración del mercado laboral, sin duda. Pero también crea nuevas oportunidades. Alguien tiene que diseñar esas voces, dirigirlas, editar los resultados. Surge la figura del "diseñador de voz con IA". La economía siempre evoluciona, joseangel.garciacerdan. Destruye empleos obsoletos y crea otros nuevos.
Dani
Sí, muy bonito el discurso de economista, pero dile eso al doblador que se ha quedado sin curro mañana. Aunque bueno, si son listos, licenciarán su voz en la plataforma esa y a vivir de las rentas. "Ingresos pasivos", como dicen los gurús de internet.
Clara
En resumen, el impacto es transversal: desde la eficiencia corporativa hasta la identidad personal, pasando por el entretenimiento masivo. Y con una valoración de 3.300 millones, el mercado está validando que este cambio ha llegado para quedarse. No es una moda pasajera.
Dani
Y esto no para, joseangel.garciacerdan. Porque estos polacos no se conforman con hablar. Ahora quieren cantar. Han sacado ElevenMusic. Yo lo he probado y ojo... le puse "punk rock agresivo sobre comer pizza fría" y me sacó un temazo que ríete tú de los Ramones.
Clara
La expansión hacia la música y los efectos de sonido es el siguiente paso lógico. ElevenMusic permite generar canciones completas a partir de texto. Han firmado acuerdos con Merlin y Kobalt para hacerlo legalmente, evitando los problemas de copyright que tuvieron con las voces. Están aprendiendo de sus errores.
Dani
Menos mal. Porque imagínate que demandan a la IA por plagiar a Metallica. Eso sí que sería un juicio digno de ver. Pero no solo música, Clara. Van a por el vídeo también. Avatares de IA. O sea, que pronto podremos generar la peli entera: guion, voces, música y vídeo. Todo desde el sofá.
Clara
Su objetivo es ser la plataforma única. Staniszewski lo llama "construir la compañía generacional de IA". Están invirtiendo masivamente en granjas de GPUs y centros de datos. Saben que la voz se convertirá en una commodity, algo barato y común. Necesitan ofrecer más valor: vídeo, dubbing en tiempo real, agentes interactivos.
Dani
¿Una commodity? Habla en cristiano, Clara. Quieres decir que las voces serán como el arroz, que hay en todas partes y es barato. Por eso tienen que venderte la paella entera. Pues tiene sentido. Yo veo un futuro donde cada uno se hace su propia serie de Netflix a medida. "Quiero una de zombis en Benidorm con la voz de Chiquito". Y pumba, hecho.
Clara
Un ejemplo... peculiar, pero ilustrativo. La tendencia es la hiper-personalización. Y también la traducción universal instantánea. Imagina videollamadas donde tú hablas español y la otra persona te escucha en chino, con tu voz, en tiempo real. Eso eliminaría las barreras lingüísticas para siempre.
Dani
Eso sería la leche. Se acabaron los exámenes de inglés. joseangel.garciacerdan, el futuro es no tener que estudiar idiomas. Bueno, igual me he pasado. Pero está claro que ElevenLabs quiere ser el rey del mambo en todo lo que suene. Y con la pasta que tienen, igual lo consiguen.
Clara
En conclusión, hemos visto cómo una frustración local con el doblaje polaco dio lugar a un gigante tecnológico de 6.600 millones de dólares. ElevenLabs ha revolucionado la síntesis de voz, enfrentándose a desafíos éticos y legales, pero consolidándose como líder indiscutible del sector.
Dani
Y dos chavales milmillonarios, no lo olvides. Increíble historia. Bueno, joseangel.garciacerdan, espero que te haya flipado el episodio. Nosotros nos vamos a clonar nuestras voces para que trabajen por nosotros mañana. ¡Es broma! O no... ¡Hasta mañana!
Clara
Eso es todo por hoy. Gracias por escuchar Goose Pod, joseangel.garciacerdan. Hasta la próxima.

Una startup polaca, ElevenLabs, revolucionó la IA de voz, alcanzando una valoración de $6.6 mil millones. Motivados por el mal doblaje en Polonia, crearon voces sintéticas hiperrealistas y clonación vocal. A pesar de desafíos éticos y legales, su enfoque en la calidad y especialización los posiciona como líderes, expandiéndose a música y vídeo.

How A Tiny Polish Startup Became The Multi-Billion-Dollar Voice Of AI

Read original at Forbes

ElevenLabs’ computer voices are so convincing they could fool your mother. That’s both a blessing—its 30 Under 30 alumni founders are now both billionaires—and a curse for the four-year-old company. Dubbed films in Poland are horrible. A lone lektor delivers all the dialogue in an enervated Slavic monotone.

There is no cast. No variation between speakers. Young audiences hate it. “Ask any Polish person and they will tell you it’s terrible,” says Mateusz Staniszewski, the cofounder of AI speech outfit ElevenLabs. “I guess it was a communist thing that stuck as a cheap way to produce content.” While working at Palantir, Staniszewski teamed up with high school friend and Google engineer Piotr Dabkowski to experiment with artificial intelligence.

The pair realized that one project, a particularly promising AI public speaking coach, could solve the uniquely Polish horror of Leonardo DiCaprio or Scarlett Johansson being drowned out by a lektor “star” like Maciej Gudowski. Cody Pickens for ForbesThe pair pooled their savings and by May 2022 had quit their jobs to work full-time on ElevenLabs.

Out of the gate, their new AI text-to-speech generator was leagues better than the robotic voices of Apple’s Siri and Amazon’s Alexa. ElevenLabs’ AI voices were capable of happiness, excitement, even laughter. In January 2023 ElevenLabs launched its first model. It could take any piece of text and use AI to read it aloud in any voice—including a clone of your own (or, worryingly, someone else’s).

There was immediate demand. Authors could instantly spawn audiobooks with the software (pro rates now start from $99 a month for higher quality and more time). YouTube creators used ElevenLabs to translate their videos into other languages (its models can now speak in 29). The Warsaw- and London-based startup landed deals with lang­uage learning and meditation apps; then media companies like HarperCollins and Germany’s Bertelsmann jumped in.

“It was obvious that this was the best model and everyone was picking it off the shelf,” says investor Jennifer Li of Andreessen Horowitz, which co-led a $19 million round in May 2023. A year later, the cofounders were honored as part of Forbes 30 Under 30 Europe. Others, though, found more unnerving uses: AI soundalikes of public figures such as President Trump crassly narrating video game duels, actress Emma Watson reading Mein Kampf and podcaster Joe Rogan touting scams quickly went viral.

Worse, fraudsters began using AI cloning tools to impersonate loved ones’ voices and steal millions in sophisticated deepfake swindles. None of it stopped venture capitalists from pouring in money. ElevenLabs has raised more than $300 million in all, soaring to a $6.6 billion valuation in October to become one of Europe’s most valuable startups.

Staniszewski, 30, who acts as CEO (the firm has no traditional titles), and research head Dabkowski, 30, are now both billionaires, worth just over $1 billion each, per Forbes estimates. Around half of ElevenLabs’ $193 million in trailing 12-month revenue comes from corporates like Cisco, Twilio and Swiss recruitment agency Adecco, which use its tech to field customer service calls or interview job seekers.

Epic Games uses it to voice characters in Fortnite, including a chat with Darth Vader (with the consent of James Earl Jones’ estate). The other half of its revenue comes from the YouTubers, podcasters and authors who were early adopters. “When you talk to them, it’s mind-blowing how good they are,” says Gartner analyst Tom Coshow.

Unlike most AI firms, too, ElevenLabs is profitable, netting an estimated $116 million in the last 12 months (a 60% margin). It’s now competing against giants like Google, Microsoft, Amazon and OpenAI to become the de facto voice of AI. It’s not a new space: Tech companies started spinning up products to listen, transcribe and generate speech around a decade ago.

While it’s somewhat of a sideline for Microsoft, Satya Nadella was willing to shell out $20 billion to buy Nasdaq-listed voice transcription service Nuance in March 2022. OpenAI launched its own voice tool, which can feed human conversations into ChatGPT, in October 2024. It Goes to 11 | ElevenLabs’ numero­phile cofounders, Mati Staniszewski (left) and Piotr Dabkowski (right), love the number 11, especially the “rule of 11” divisibility trick.

Their next goal? An $11 billion valuation, naturally.Cody Pickens for ForbesBut ElevenLabs’ 300-person team isn’t playing catch-up. Its models are so good that it’s able to get away with charging up to three times as much as these American rivals. Its library of 10,000 uncannily human-sounding voices is the largest by far and now includes A-listers Michael Caine and Matthew McConaughey.

It’s also more reliable. Data training startup Labelbox tested six of the top voice models with a reading quiz and found that ElevenLabs made half as many errors as its closest competitor, OpenAI. “We are one of the very few companies that are ahead of OpenAI—not only on speech, but speech-to-text and music.

That’s hard,” Staniszewski says. ElevenLabs’ recipe is simple. A tight cadre of machine learning researchers, with obsessive focus on one narrow problem, and a tight budget (the cofounders fronted the first $100,000 training run) drove model breakthroughs. “Having a ton of compute can be a curse because you don’t think how to solve it in a smart way,” Dabkowski says.

But a lawsuit from a pair of audiobook narrators hints at another ingredient. Karissa Vacker and Mark Boyett allege that ElevenLabs used thousands of copyright-protected audiobooks to train its models. They claim so many of their books were scraped that clones of their voices ended up as default options on ElevenLabs.

The case, in which ElevenLabs denied wrongdoing, was settled out of court in November. (Vacker and Boyett did not respond to a comment request; ElevenLabs declined further comment.) Maturity is setting in. The company finally drew up a list of “no go” voices (mostly politicians and celebrities) after an ElevenLabs-made clone of Joe Biden’s voice was used to discourage voting in a robocall campaign around the 2024 Democratic primary.

ElevenLabs now has seven full-time human moderators (plus AI, natch) scouring its clips for misuse. Newly cloned voices need to pass a consent check, and the company offers a free deepfake detector. Staniszewski and Dabkowski have big plans beyond voice. Both cash-strapped creators and budget-conscious media companies wanted royalty-free background music, so they delivered an AI music generator in August.

Don’t have time to shoot a video? ElevenLabs will have AI avatars to front Sora-style videos next year. Their boldest bet is that they can translate their expertise to provide a single hub for clients to manage all their AI tools. “We are building a platform that allows you to create voice agents and deploy them smoothly,” Staniszewski says.

Of course, that puts ElevenLabs on a collision course with a gaggle of other startups hoping to do the same thing. It helps that it’s been profitable since its earliest days, but its startup competitors are richly funded, and the tech giants have virtually unlimited resources. Still, it must innovate.

Voice models will soon be commoditized. When other models catch up, fickle customers that already balk at ElevenLabs’ pricing will likely switch. As it broadens beyond voices to more computationally intensive music and video, ElevenLabs needs to expand its own GPU farms to stay in the race. It has already spent $50 million on a data center project in Oregon.

“If we are to build the generational company in AI, you need to build scale, and we are building,” Staniszewski says. Back in Poland, the aging corps of lektors are still in business, for now. Dabkowski hasn’t forgotten ElevenLabs’ original pitch, boasting that his next model will translate and voice an entire movie in one shot.

“We never give up on our missions,” he says.More from ForbesForbesVibe Coding Turned This Swedish AI Unicorn Into The Fastest Growing Software Startup EverForbesHow An AI Notetaker Became One Of The Few Profitable AI StartupsBy Iain MartinForbesThis AI Founder’s Audacious Plan To Buy Out His Own VCsBy Iain MartinForbesMagic Money: The Mysterious Case Of The $15 Billion Metaverse Startup And Its Anonymous Multi-Billion Dollar InvestorBy Phoebe Liu

Analysis

Conflict+
Related Info+
Core Event+
Background+
Impact+
Future+

Related Podcasts