Clara
Buenos días, joseangel.garciacerdan. Soy Clara y esto es Goose Pod, tu dosis personalizada de análisis. Hoy es miércoles, 10 de diciembre, y son las 15:00 horas. Tenemos un tema fascinante sobre la mesa: cómo una pequeña startup polaca se convirtió en la voz multimillonaria de la IA.
Dani
¡Qué pasa, joseangel.garciacerdan! Aquí Dani, a tope de energía. Hoy vamos a hablar de unos chavales que se han hecho de oro, pero de oro nivel milmillonario, clonando voces. Clara viene con sus datos aburridos, pero yo quiero saber cómo narices han liado esta tremenda en tan poco tiempo.
Clara
Dani, por favor, un poco de seriedad. joseangel.garciacerdan merece un análisis riguroso. Estamos hablando de ElevenLabs. Para que te hagas una idea de la magnitud, esta empresa ha alcanzado una valoración de 6.600 millones de dólares en octubre. Permítame que insista: 6.600 millones.
Dani
¡Madre mía, qué barbaridad! O sea, que estos tíos, Mateusz y Piotr, que eran colegas del instituto, ahora tienen más pasta que un torero. Y todo esto empezó, atención joseangel.garciacerdan, porque odiaban cómo doblaban las pelis en su país. Eso sí que es motivación, tío.
Clara
Exactamente. Vayamos a los hechos. En Polonia existe la figura del lektor. Es una sola voz masculina, monótona y sin emoción, que lee todos los diálogos de una película, incluso si habla Scarlett Johansson o Leonardo DiCaprio. Es un vestigio de la época comunista por ser barato.
Dani
Espera, espera. ¿Me estás diciendo que estás viendo Titanic y la voz de Rose la hace un señor polaco con tono de estar leyendo la lista de la compra? Eso es cutrísimo, Clara. Normal que estos dos genios dijeran: hasta aquí hemos llegado, vamos a arreglar esto con IA.
Clara
Ese fue el catalizador. Mateusz Staniszewski y Piotr Dabkowski, ambos menores de 30 años en ese momento, dejaron sus trabajos en Palantir y Google. Invirtieron sus propios ahorros y lanzaron ElevenLabs. En enero de 2023 sacaron su primer modelo. Y los datos son demoledores: ahora tienen una biblioteca de 10.000 voces.
Dani
Y no voces cualquiera, eh. Que yo he probado esto y te quedas loco. Pueden reír, pueden susurrar, pueden gritar de emoción. No es como la Siri de hace años que sonaba a lata oxidada. Estos tipos han conseguido que la IA tenga, no sé, alma. O algo que se le parece mucho.
Clara
No es alma, Dani, es aprendizaje profundo y redes neuronales avanzadas. Pero el resultado financiero es lo que importa aquí. A diferencia de muchas startups de IA que queman dinero, ElevenLabs es rentable. Han generado unos 190 millones de dólares en ingresos, con un margen del 60 por ciento.
Dani
¡Un margen del 60 por ciento! Eso es imprimir billetes. Y encima dicen que cada uno de los fundadores ya tiene un patrimonio de más de mil millones. joseangel.garciacerdan, toma nota: si algo te molesta mucho, como el doblaje pachacho, invéntate una IA y forrate. Es el plan maestro.
Clara
No es tan sencillo. La clave está en la ejecución. Su modelo podía coger cualquier texto y leerlo en voz alta con cualquier voz, incluso clonar la tuya propia. Autores de audiolibros, YouTubers que querían doblar sus vídeos a otros idiomas... La demanda fue inmediata y masiva desde el primer día.
Dani
Claro, imagínate. Eres un YouTuber español y de repente, zasca, tu vídeo está en inglés, alemán y japonés, pero con tu misma voz y entonación. Eso te abre el mercado mundial en un segundo. Es que está guapísimo. Pero claro, esto también tiene su lado oscuro, ¿no, Clara?
Clara
Evidentemente. Pero sigamos con los datos de crecimiento antes de entrar en polémicas. Han levantado más de 300 millones de dólares de inversores. Y ahora compiten contra gigantes como Google y Amazon. Pero ElevenLabs cobra hasta tres veces más y la gente lo paga. ¿Por qué? Por la calidad.
Dani
Porque suena real, tía. He leído que hicieron un test y ElevenLabs cometía la mitad de errores que OpenAI. O sea, que David le está ganando a Goliat porque David habla mejor. Es muy fuerte que una empresa de 300 personas le esté plantando cara a Microsoft.
Clara
Es la ventaja de la especialización. Ellos se han centrado obsesivamente en el audio. Staniszewski lo dice claro: tener demasiada capacidad de computación puede ser una maldición porque no te obliga a pensar de forma inteligente. Ellos empezaron con poco y optimizaron al máximo.
Dani
A mí me flipa que empezaran poniendo 100.000 pavos de su bolsillo. Eso es tener fe en tu idea. Y ahora mira, valorados en 6.600 millones. joseangel.garciacerdan, espero que estés visualizando los ceros de esa cifra. Es que es una locura para una empresa que tiene, ¿qué? ¿Cuatro años?
Clara
Técnicamente la idea surgió hace muy poco y el lanzamiento fue en 2023. El crecimiento ha sido exponencial. Y no solo voces, ahora van a por la música y el vídeo. Quieren ser el centro de mando de todo el contenido de IA. Ambición no les falta.
Dani
Pues habrá que ver si no se les sube a la cabeza. Pero bueno, de momento, han conseguido que dejemos de sonar como robots estropeados. Aunque a veces, Clara, tú suenas un poco así cuando te pones tan intensa con los números, ¿eh? Sin ofender.
Clara
Ignoraré ese comentario irrelevante. Lo importante es que han resuelto un problema real: la barrera del idioma y la calidad del audio sintético. Y lo han hecho desde Polonia y Londres, no desde Silicon Valley, lo cual también es un dato significativo en este ecosistema.
Dani
Vale, Clara, pero para que joseangel.garciacerdan entienda por qué esto es tan revolucionario, tenemos que mirar atrás. Porque esto de que las máquinas hablen no es nuevo. Yo he visto vídeos de cosas muy raras del pasado que intentaban hablar y daban un miedo que te mueres.
Clara
Efectivamente. La historia de la síntesis de voz abarca más de 250 años. Comencemos con los hechos históricos. En 1791, Wolfgang von Kempelen creó una máquina mecánica con fuelles, lengüetas y cámaras de resonancia que simulaba la voz humana. No había electricidad, era pura mecánica.
Dani
¿1791? ¡Qué locura! Me imagino al tal Kempelen ahí apretando fuelles y la máquina soltando un mamá o algo así súper tétrico. Como una gaita poseída. Y luego hubo otra máquina con cara de mujer, ¿no? La Euphonia. Esa sí que daba pesadillas.
Clara
La Euphonia de Joseph Faber, en 1846. Tenía cuerdas vocales artificiales y se operaba con un teclado. Podía hablar en varios idiomas y hasta susurrar, pero era extremadamente compleja de operar. El problema siempre fue la naturalidad. Sonaban mecánicas, inhumanas. La gente no lo veía como utilidad, sino como una curiosidad de circo.
Dani
Claro, si te habla una cabeza de goma en el siglo XIX, sales corriendo. Pero luego llegaron los ordenadores y la cosa se puso más seria, aunque seguían sonando a rayos. ¿Te acuerdas de Stephen Hawking? Su voz era icónica, pero sonaba 100% robot.
Clara
Ese era el sistema DECtalk, lanzado en 1984. Utilizaba síntesis por formantes. Era inteligible, que era el gran logro de la época, pero carecía de emoción. Durante décadas, la síntesis de voz se basó en concatenar fragmentos grabados. Se grababa a una persona leyendo miles de frases, se cortaban y se pegaban.
Dani
Ah, como cuando los secuestradores en las pelis cortan letras de periódicos para hacer una nota, pero con audio. Por eso sonaba tan entrecortado. Gire. A. La. Derecha. Era horrible, tío. Parecía que el GPS te estaba dando órdenes mientras se le acababa la batería.
Clara
Exacto. Se llamaba síntesis concatenativa. El gran salto, el cambio de paradigma, llegó con el aprendizaje profundo. En 2016, DeepMind de Google presentó WaveNet. En lugar de pegar trozos de audio, la IA generaba la onda de sonido punto por punto, aprendiendo de ejemplos humanos.
Dani
Ahí es cuando la cosa se puso interesante. WaveNet ya no sonaba a robot resfriado. Pero lo de ElevenLabs es otro nivel. ¿Qué han hecho ellos diferente? Porque ahora mismo, joseangel.garciacerdan, si escuchas una demo suya, no sabes si es una persona o un código.
Clara
La clave es la arquitectura Transformer y el modelado del contexto. Los sistemas antiguos no entendían lo que leían. ElevenLabs analiza el texto para comprender la emoción, la entonación y el ritmo necesarios. Si el texto es triste, la voz se quiebra ligeramente. Si es una pregunta, eleva el tono al final.
Dani
Es decir, que la IA actúa. Ya no solo lee, interpreta. Eso es lo que le faltaba al lektor polaco ese del que hablábamos. El lektor leía Te quiero igual que Pásame la sal. La IA de ElevenLabs sabe que un te quiero tiene que sonar blandito. Es muy fuerte cómo han pasado de fuelles de madera a esto.
Clara
Es una evolución tecnológica fascinante. Y no olvidemos la accesibilidad. Estas tecnologías permiten a personas que han perdido la voz, por enfermedades como la ELA, recuperar una voz sintética que suena como ellos, no como un robot genérico. Eso es un impacto real basado en estos avances históricos.
Dani
Totalmente. Pero volviendo al tema de los lektors polacos, me sigue pareciendo alucinante que una tradición tan cutre haya inspirado una empresa de 3.000 millones. A veces las mejores ideas vienen de estar harto de algo, ¿eh? "Estoy harto de este tío monótono, voy a crear el futuro".
Clara
La necesidad es la madre de la invención, como dicen. Pero también hay que tener la capacidad técnica. Mateusz y Piotr no eran dos aficionados. Venían de Palantir y Google, sabían lo que hacían con el Machine Learning. Entendieron que el problema no era solo el sonido, sino la falta de escalabilidad del doblaje humano.
Dani
Claro, doblar una peli tarda meses y cuesta una pasta. Con esto lo haces en una tarde y por cuatro duros. Es que el negocio se ve venir de lejos. Pero claro, joseangel.garciacerdan, aquí es donde la cosa se pone peliaguda. Porque si la IA lo hace todo... ¿qué pasa con los actores de doblaje? Se viene drama.
Clara
Ese es un punto crucial. La tecnología ha avanzado más rápido que la regulación y la ética. Hemos pasado de máquinas que apenas se entendían a sistemas que pueden suplantar identidades en cuestión de segundos. Y eso nos lleva directamente a los conflictos actuales.
Dani
Sí, porque no todo es de color de rosa. Hay gente muy enfadada y con razón. Imagínate que usas tu voz para trabajar y de repente una máquina te la roba. A mí me sentaría fatal, la verdad. Me pondría hecho una furia.
Clara
No es solo un sentimiento, Dani, son demandas legales. Vayamos a los hechos recientes. Ha habido un caso muy sonado, el de Vacker contra ElevenLabs. Actores de voz que demandaron a la empresa por supuestamente usar sus audiolibros para entrenar a la IA sin permiso.
Dani
¡Ojo! O sea que cogieron los libros que estos actores habían narrado con todo su esfuerzo, se los dieron de comer a la IA y luego sacaron voces que sonaban igual que ellos. ¿Cómo se llamaban las voces? ¿Adán y Eva? No, espera, Adam y Bella, ¿no?
Clara
Correcto. Las voces "Adam" y "Bella" eran sospechosamente similares a las de los actores Mark Boyett y Karissa Vacker. La demanda alegaba que ElevenLabs se lucró con estas voces clonadas. Y atención al dato: este caso se resolvió fuera de los tribunales en noviembre. Hubo un acuerdo.
Dani
Ah, el clásico "toma dinero y calla". Eso significa que algo de razón tenían los actores, ¿eh? Porque si eres inocente vas a juicio a tope. Pero claro, joseangel.garciacerdan, esto abre la caja de Pandora. ¿De quién es tu voz? ¿Tienes copyright de tu timbre de voz?
Clara
Es un terreno legal pantanoso. Pero el problema no es solo el copyright, es el uso malintencionado. Permítame recordarle el incidente del robocall de Joe Biden. Se usó una voz clonada por ElevenLabs para desanimar a la gente a votar en las primarias demócratas. Eso es interferencia electoral directa.
Dani
Eso fue muy heavy. La gente cogía el teléfono y escuchaba al presidente diciéndoles "no votéis". ¡Y era mentira! Es que da miedo. Cualquiera puede hacer que cualquiera diga cualquier barbaridad. Emma Watson leyendo el Mein Kampf... en serio, la gente está muy mal de la cabeza.
Clara
Lamentablemente, la tecnología es neutra, pero los usuarios no. ElevenLabs ha tenido que poner medidas. Han creado un clasificador de voz para detectar sus propios fakes, y tienen una lista de "no imitar" para políticos y famosos. Ahora tienen moderadores humanos revisando el contenido.
Dani
Ya, pero hecha la ley, hecha la trampa. Siempre habrá alguien que encuentre la forma de saltárselo. Y luego está la competencia, Clara. Porque OpenAI también está ahí, agazapada. Tienen su propio modo de voz en ChatGPT que es una pasada. ¿Tienen miedo los polacos?
Clara
Staniszewski dice que no. Su argumento es que OpenAI es generalista y ellos son especialistas. ElevenLabs ofrece herramientas de edición precisas, control emocional... cosas que un modelo de chat general no tiene. Pero es un riesgo. Si Google o Microsoft deciden ir a por todas, tienen recursos casi ilimitados.
Dani
Es la típica batalla de la startup ágil contra el gigante lento pero aplastante. De momento ElevenLabs gana en calidad. He leído que los analistas dicen que su calidad es "mind-blowing". Pero claro, si mañana ChatGPT saca una actualización que lo iguala... adiós muy buenas.
Clara
No necesariamente. ElevenLabs está construyendo un ecosistema, no solo una voz. Están integrándose con editoriales, con empresas de videojuegos como Epic Games. Darth Vader en Fortnite, por ejemplo. Esas alianzas empresariales son un foso defensivo importante.
Dani
¡Darth Vader! Eso mola todo. Pero volviendo a los actores, Clara. Hay un sindicato o algo moviéndose, ¿no? Porque he visto que han firmado acuerdos. Parece que al final van a tener que pagar royalties si usan tu voz. Lo cual es justo, digo yo.
Clara
Sí, están surgiendo modelos de licencia. ElevenLabs lanzó un mercado de voces donde los actores pueden subir su voz y cobrar cada vez que alguien la usa. Es un intento de "ética proactiva". Convertir el problema en producto. Si no puedes vencer a la IA, únete a ella y cobra.
Dani
"Si no puedes vencerlos, cobra de ellos". Me gusta esa filosofía. Pero joseangel.garciacerdan, piensa en esto: ¿llegará un día en que no sepamos si este podcast lo estamos haciendo nosotros o una IA? Igual yo soy una IA ahora mismo y no lo sabes. ¡Bip bop!
Clara
Por favor, Dani, no digas tonterías. Tu caos es demasiado humano para ser replicado por un algoritmo eficiente. Pero el punto sobre la confianza es válido. La sociedad se enfrenta a una crisis de veracidad. Si no podemos creer lo que oímos, ¿cómo nos informamos?
Dani
Pues fiándote de Goose Pod, claro. Pero sí, es un lío. Y encima ahora que hay elecciones y conflictos mundiales, un audio falso puede liar la Tercera Guerra Mundial. No es broma. ElevenLabs tiene una responsabilidad gigante ahí.
Clara
Y lo saben. Por eso invierten tanto en seguridad ahora. Pero el genio ya ha salido de la lámpara. Los modelos de código abierto están ahí fuera. ElevenLabs puede ser segura, pero ¿qué pasa con los clones piratas que corren por internet? Ese es el verdadero conflicto incontrolable.
Dani
Bueno, dejemos de asustar a joseangel.garciacerdan con el apocalipsis robot y hablemos de la pasta y el impacto real. Porque aparte de los deepfakes, esta gente está cambiando industrias enteras. Lo de los audiolibros es una locura. Ahora cualquier autor puede tener audiolibro por cuatro duros.
Clara
Exacto. El impacto económico es tangible. Las tarifas profesionales de ElevenLabs empiezan en 99 dólares al mes. Antes, producir un audiolibro costaba miles de dólares en estudio, horas de grabación, edición... Ahora se democratiza el acceso. Editoriales como HarperCollins ya están usando su tecnología.
Dani
Y los YouTubers, tío. He visto canales que doblan sus vídeos a 10 idiomas al día siguiente de publicarlos. Eso multiplica su audiencia por mil. Es como tener un equipo de doblaje mundial en tu portátil. El impacto en la "creator economy" es brutal.
Clara
Y no solo creadores. El 60% de las empresas Fortune 500 ya han interactuado con su plataforma. Estamos hablando de Cisco, Twilio... Usan esta tecnología para centros de llamadas. La próxima vez que llames al banco, es muy probable que la voz amable que te atiende sea generada por ElevenLabs.
Dani
Mientras me entienda y no me ponga esa música de espera infernal, me vale. Pero Clara, hay una historia que me tocó la patata. Lo de los pacientes con ELA. Cuéntaselo a joseangel.garciacerdan porque eso sí que es tecnología bien usada.
Clara
Es el programa de impacto de ElevenLabs. Personas que están perdiendo la capacidad de hablar debido a la Esclerosis Lateral Amiotrófica pueden clonar su voz antes de perderla. Luego, pueden usar la IA para hablar a través de un ordenador, pero con su propia voz, no con una genérica. Eso devuelve la identidad a la persona.
Dani
Eso es increíble. Imagínate poder seguir leyéndole cuentos a tus hijos con tu voz, aunque ya no puedas hablar. Ahí es donde ves que esto no es solo para hacer memes de Trump jugando al Minecraft. Hay un valor humano real. Se me mete algo en el ojo, te lo juro.
Clara
Contenga la emoción, Dani. Otro sector transformado es el de los videojuegos. Mencionamos a Fortnite, pero piensa en los juegos de rol con miles de personajes. Antes, la mayoría eran solo texto porque no había presupuesto para doblar a 500 aldeanos. Ahora, cada personaje puede tener una voz única.
Dani
¡Bua! Adiós a leer subtítulos infinitos en los RPGs. "Saludos, viajero" con 50 acentos distintos. Me encanta. Pero claro, esto significa que la industria del doblaje tradicional se tiene que reinventar sí o sí. Ya no van a doblar a los aldeanos, solo a los protagonistas.
Clara
Es una reestructuración del mercado laboral, sin duda. Pero también crea nuevas oportunidades. Alguien tiene que diseñar esas voces, dirigirlas, editar los resultados. Surge la figura del "diseñador de voz con IA". La economía siempre evoluciona, joseangel.garciacerdan. Destruye empleos obsoletos y crea otros nuevos.
Dani
Sí, muy bonito el discurso de economista, pero dile eso al doblador que se ha quedado sin curro mañana. Aunque bueno, si son listos, licenciarán su voz en la plataforma esa y a vivir de las rentas. "Ingresos pasivos", como dicen los gurús de internet.
Clara
En resumen, el impacto es transversal: desde la eficiencia corporativa hasta la identidad personal, pasando por el entretenimiento masivo. Y con una valoración de 3.300 millones, el mercado está validando que este cambio ha llegado para quedarse. No es una moda pasajera.
Dani
Y esto no para, joseangel.garciacerdan. Porque estos polacos no se conforman con hablar. Ahora quieren cantar. Han sacado ElevenMusic. Yo lo he probado y ojo... le puse "punk rock agresivo sobre comer pizza fría" y me sacó un temazo que ríete tú de los Ramones.
Clara
La expansión hacia la música y los efectos de sonido es el siguiente paso lógico. ElevenMusic permite generar canciones completas a partir de texto. Han firmado acuerdos con Merlin y Kobalt para hacerlo legalmente, evitando los problemas de copyright que tuvieron con las voces. Están aprendiendo de sus errores.
Dani
Menos mal. Porque imagínate que demandan a la IA por plagiar a Metallica. Eso sí que sería un juicio digno de ver. Pero no solo música, Clara. Van a por el vídeo también. Avatares de IA. O sea, que pronto podremos generar la peli entera: guion, voces, música y vídeo. Todo desde el sofá.
Clara
Su objetivo es ser la plataforma única. Staniszewski lo llama "construir la compañía generacional de IA". Están invirtiendo masivamente en granjas de GPUs y centros de datos. Saben que la voz se convertirá en una commodity, algo barato y común. Necesitan ofrecer más valor: vídeo, dubbing en tiempo real, agentes interactivos.
Dani
¿Una commodity? Habla en cristiano, Clara. Quieres decir que las voces serán como el arroz, que hay en todas partes y es barato. Por eso tienen que venderte la paella entera. Pues tiene sentido. Yo veo un futuro donde cada uno se hace su propia serie de Netflix a medida. "Quiero una de zombis en Benidorm con la voz de Chiquito". Y pumba, hecho.
Clara
Un ejemplo... peculiar, pero ilustrativo. La tendencia es la hiper-personalización. Y también la traducción universal instantánea. Imagina videollamadas donde tú hablas español y la otra persona te escucha en chino, con tu voz, en tiempo real. Eso eliminaría las barreras lingüísticas para siempre.
Dani
Eso sería la leche. Se acabaron los exámenes de inglés. joseangel.garciacerdan, el futuro es no tener que estudiar idiomas. Bueno, igual me he pasado. Pero está claro que ElevenLabs quiere ser el rey del mambo en todo lo que suene. Y con la pasta que tienen, igual lo consiguen.
Clara
En conclusión, hemos visto cómo una frustración local con el doblaje polaco dio lugar a un gigante tecnológico de 6.600 millones de dólares. ElevenLabs ha revolucionado la síntesis de voz, enfrentándose a desafíos éticos y legales, pero consolidándose como líder indiscutible del sector.
Dani
Y dos chavales milmillonarios, no lo olvides. Increíble historia. Bueno, joseangel.garciacerdan, espero que te haya flipado el episodio. Nosotros nos vamos a clonar nuestras voces para que trabajen por nosotros mañana. ¡Es broma! O no... ¡Hasta mañana!
Clara
Eso es todo por hoy. Gracias por escuchar Goose Pod, joseangel.garciacerdan. Hasta la próxima.