Hur ett litet polskt startup blev den miljardstora rösten för AI

Hur ett litet polskt startup blev den miljardstora rösten för AI

2025-12-08Technology
--:--
--:--
Barbro
God eftermiddag hmcbv2rssm, jag är Barbro, och detta är Goose Pod bara för dig. Idag är det måndag den 8 december, klockan är 17:16. Med mig har jag Gunnar. Vi ska idag diskutera hur ett litet polskt startup-företag blev den miljardstora rösten för AI.
Gunnar
Ja, en ganska anmärkningsvärd historia. Från frustration över dålig filmdubbning till att omdefiniera en hel industri. Det visar på en viss sorts... beslutsamhet. Det ska vi noggrant analysera.
Barbro
Absolut, Gunnar! Tänk dig, två vänner, Mateusz Staniszewski och Piotr Dabkowski, tröttnar på de där fruktansvärda, monotona lektor-rösterna som läser över all dialog i polska filmer. Istället för att bara klaga, bygger de ett företag som nu är värderat till 6,6 miljarder dollar!
Gunnar
Jo, men ser du, det är just där genialiteten ligger. De identifierade ett vardagligt, nästan banalt problem som alla kände till och hatade. De insåg att om AI kunde lösa det, kunde den lösa så mycket mer. Det är ju fullständigt självklart att den bästa innovationen kommer från verkliga behov.
Barbro
Och vilken lösning de skapade! De lanserade sin första modell i januari 2023. Plötsligt kunde vem som helst skapa ljudböcker eller översätta sina YouTube-videor med röster som lät genuint mänskliga. Glada, exalterade, till och med skrattande! Inte alls som de där gamla robotrösterna.
Gunnar
Precis. De gick från noll till en intäkt på nästan 190 miljoner dollar och, anmärkningsvärt nog, lönsamhet. Det är ovanligt i AI-världen, där de flesta bränner pengar i jakt på nästa stora genombrott. De två grundarna är nu miljardärer, båda bara 30 år gamla. Det är en extremt snabb resa.
Barbro
En otrolig resa! De har nu ett bibliotek med 10 000 olika syntetiska röster. Författare, youtubers, till och med stora medieföretag som HarperCollins anslöt sig snabbt. Det är som att de öppnade en dörr som ingen visste fanns där, och alla ville in samtidigt.
Gunnar
Det handlar om kvalitet. Deras modeller var helt enkelt överlägsna allt annat på marknaden. När du har en produkt som är så uppenbart bättre, säljer den sig själv. Konkurrenterna, även de stora jättarna, lät som leksaker i jämförelse. Det var ett teknologiskt kvantsprång.
Barbro
Det är fascinerande, för när man tänker på text-till-tal-teknik, så tänker i alla fall jag på de där styltiga, robotaktiga rösterna från förr. Som när man skulle få datorn att läsa upp en text på 90-talet. Det lät ju... inte klokt. Hur gick vi därifrån till ElevenLabs otroligt verkliga röster?
Gunnar
Jo, men ser du, resan är längre än de flesta tror. Den sträcker sig över 250 år. Det började redan 1791 med Wolfgang von Kempelens mekaniska talmaskin, som använde bälgar och rör för att härma ljud. Det var en mekanisk imitation av den mänskliga rösten, väldigt primitivt såklart.
Barbro
En mekanisk talmaskin? Det låter som något från en steampunk-roman! Jag föreställer mig en massa kugghjul och ånga som hostar fram ett 'hej'. Det är ju en otrolig kontrast till dagens AI som kan viska, skratta och låta precis som du och jag. Helt otroligt.
Gunnar
Det är det verkligen. Sedan kom de elektroniska genombrotten på 1930-talet med Bell Labs VODER. Men det stora skiftet skedde med datorernas intåg. Tidiga system byggde på något som kallas konkatenerande syntes, där man i princip klipper och klistrar ihop små inspelade ljudbitar. Det är därför det lät så hackigt och onaturligt.
Barbro
Aha, så det var som ett digitalt lapptäcke av ljud! Det förklarar varför tonfallet alltid var så konstigt och varför det saknades all form av känsla. Varje ord var liksom en egen liten ö, utan någon bro till nästa. När kom det verkliga genombrottet då?
Gunnar
Det kom med djupinlärning och neurala nätverk. Runt 2016 introducerade Google DeepMind något som hette WaveNet. Istället för att pussla ihop ljud, lärde sig modellen att generera själva ljudvågen från grunden, pixel för pixel kan man säga. Det möjliggjorde en helt ny nivå av realism, med andning och naturliga böjningar.
Barbro
Så det var då AI lärde sig att 'känna' språket istället för att bara 'läsa' det? Det är ju det som är skillnaden med ElevenLabs. Deras AI verkar förstå sammanhanget och kan anpassa tonen därefter. Det är inte bara ord som radas upp, det är verklig kommunikation.
Gunnar
Exakt. Och sedan kom Transformer-arkitekturen 2017, som revolutionerade hela fältet för språkförståelse. Det är samma teknologi som ligger bakom modeller som ChatGPT. ElevenLabs använde dessa framsteg och fokuserade dem maniskt på ett enda problem: att skapa den perfekta rösten. Det är deras hemlighet. Fokus och timing.
Barbro
Men med en så kraftfull teknologi kommer ju också... problem. Det dröjde inte länge innan folk började använda ElevenLabs för att skapa deepfakes. Jag minns klippen med Emma Watson som läste ur 'Mein Kampf' och andra hemskheter. Det är ju den mörka baksidan av myntet.
Gunnar
Det är ju fullständigt självklart att det skulle ske. När du ger mänskligheten ett kraftfullt verktyg, kommer någon oundvikligen att använda det i ont syfte. Vi såg det med deepfake-röstsamtal där bedragare imiterade anhöriga för att lura till sig pengar. Det är en ny form av brottslighet.
Barbro
Och det stannade inte där. Det blev ju en politisk skandal när en AI-klonad röst av Joe Biden användes i en robocall-kampanj för att avskräcka folk från att rösta. Plötsligt är det inte bara bedrägerier, utan ett hot mot själva demokratin. Hur hanterar ett företag ett sådant ansvar?
Gunnar
De tvingas till det. ElevenLabs har infört säkerhetsåtgärder: moderatorer, en AI som letar efter missbruk, och verifiering för att klona röster. Men det verkliga problemet är upphovsrätten. Flera röstskådespelare har stämt dem och hävdar att deras röster har använts för att träna AI:n utan tillstånd eller ersättning.
Barbro
Det är en knivig fråga. Röstskådespelarna Karissa Vacker och Mark Boyett hävdade att ElevenLabs hade skrapat tusentals av deras ljudböcker. De menade att standardrösterna 'Adam' och 'Bella' var direkta kloner av dem. Fallet förlikades, men det belyser ju en enorm gråzon. Vem äger en röst?
Gunnar
Precis. Lagstiftningen har inte hunnit ikapp tekniken. Är en AI-tränad modell ett nytt verk eller stöld? Det är en debatt som rasar nu, och ElevenLabs befinner sig mitt i stormens öga. De konkurrerar med giganter som Google och OpenAI, men de står också inför helt nya etiska och juridiska dilemman.
Barbro
Samtidigt har ju tekniken en enormt positiv inverkan. Tänk på medieindustrin! Plötsligt kan en film dubbas till 30 olika språk med skådespelarnas egna röstkaraktärer intakta. Ljudböcker kan produceras på en bråkdel av tiden och kostnaden. Det är en revolution för hur vi konsumerar innehåll.
Gunnar
Jo, men ser du, den ekonomiska effekten är obestridlig. De har kunder i över 60% av Fortune 500-företagen. Företag använder tekniken för allt från kundtjänst till att intervjua jobbsökande. I spelet Fortnite kan du chatta med Darth Vader, vars röst är återskapad med AI, med godkännande från James Earl Jones dödsbo. Användningsområdena är oändliga.
Barbro
Det är också en demokratisering av kreativitet. Små youtubers eller poddskapare som inte har råd med dyra röstskådespelare kan nu skapa professionellt innehåll. Det jämnar ut spelplanen och öppnar dörrar för nya kreatörer. Det är inte bara de stora bolagen som gynnas.
Gunnar
Det är sant. Men det skapar också en ny konkurrenssituation. ElevenLabs är specialiserade och, just nu, bäst i klassen. Men de utmanas av Google, Microsoft och Amazon som har nästan obegränsade resurser. ElevenLabs måste fortsätta att innovera i en rasande takt för att behålla sitt försprång. Deras lönsamhet ger dem dock en stark position.
Barbro
Och de verkar inte vila på lagrarna! De har redan expanderat bortom bara röster. Nu har de lanserat ElevenMusic, en AI som kan generera musik från en textprompt. Du kan be om en låt i en viss genre, med en viss känsla, och AI:n komponerar den. Det är nästa galna steg!
Gunnar
Ja, och de planerar även AI-avatarer för video. Deras vision är att bli en central plattform för alla typer av generativ media. Det är en djärv strategi. Men det innebär också att de ger sig in på ännu mer konkurrensutsatta marknader. Frågan är om deras expertis inom ljud kan översättas lika framgångsrikt till musik och video.
Barbro
Det återstår att se, men det är onekligen spännande. Från att ha velat fixa dålig filmdubbning till att bygga ett helt ekosystem för AI-skapat innehåll. Grundaren Piotr Dabkowski säger att de aldrig ger upp sina uppdrag. Jag tror vi bara har sett början på vad ElevenLabs kan göra.
Barbro
Det var slutet på dagens diskussion. Från polsk filmfrustration till en global AI-gigant, en otrolig historia. Tack för att du lyssnade på Goose Pod. Vi hörs imorgon!
Gunnar
Tack för idag. Det visar att även de största teknologiska revolutionerna kan starta med ett litet, personligt irritationsmoment. En viktig lärdom. På återhörande.

Ett litet polskt startup, ElevenLabs, revolutionerar AI-röstteknik. Från frustration över dålig filmdubbning till en miljardvärdering, erbjuder de nu realistiska syntetiska röster. Trots etiska utmaningar som deepfakes och upphovsrättstvister, expanderar de till musik och video, och demokratiserar kreativt skapande globalt.

How A Tiny Polish Startup Became The Multi-Billion-Dollar Voice Of AI

Read original at Forbes

ElevenLabs’ computer voices are so convincing they could fool your mother. That’s both a blessing—its 30 Under 30 alumni founders are now both billionaires—and a curse for the four-year-old company. Dubbed films in Poland are horrible. A lone lektor delivers all the dialogue in an enervated Slavic monotone.

There is no cast. No variation between speakers. Young audiences hate it. “Ask any Polish person and they will tell you it’s terrible,” says Mateusz Staniszewski, the cofounder of AI speech outfit ElevenLabs. “I guess it was a communist thing that stuck as a cheap way to produce content.” While working at Palantir, Staniszewski teamed up with high school friend and Google engineer Piotr Dabkowski to experiment with artificial intelligence.

The pair realized that one project, a particularly promising AI public speaking coach, could solve the uniquely Polish horror of Leonardo DiCaprio or Scarlett Johansson being drowned out by a lektor “star” like Maciej Gudowski. Cody Pickens for ForbesThe pair pooled their savings and by May 2022 had quit their jobs to work full-time on ElevenLabs.

Out of the gate, their new AI text-to-speech generator was leagues better than the robotic voices of Apple’s Siri and Amazon’s Alexa. ElevenLabs’ AI voices were capable of happiness, excitement, even laughter. In January 2023 ElevenLabs launched its first model. It could take any piece of text and use AI to read it aloud in any voice—including a clone of your own (or, worryingly, someone else’s).

There was immediate demand. Authors could instantly spawn audiobooks with the software (pro rates now start from $99 a month for higher quality and more time). YouTube creators used ElevenLabs to translate their videos into other languages (its models can now speak in 29). The Warsaw- and London-based startup landed deals with lang­uage learning and meditation apps; then media companies like HarperCollins and Germany’s Bertelsmann jumped in.

“It was obvious that this was the best model and everyone was picking it off the shelf,” says investor Jennifer Li of Andreessen Horowitz, which co-led a $19 million round in May 2023. A year later, the cofounders were honored as part of Forbes 30 Under 30 Europe. Others, though, found more unnerving uses: AI soundalikes of public figures such as President Trump crassly narrating video game duels, actress Emma Watson reading Mein Kampf and podcaster Joe Rogan touting scams quickly went viral.

Worse, fraudsters began using AI cloning tools to impersonate loved ones’ voices and steal millions in sophisticated deepfake swindles. None of it stopped venture capitalists from pouring in money. ElevenLabs has raised more than $300 million in all, soaring to a $6.6 billion valuation in October to become one of Europe’s most valuable startups.

Staniszewski, 30, who acts as CEO (the firm has no traditional titles), and research head Dabkowski, 30, are now both billionaires, worth just over $1 billion each, per Forbes estimates. Around half of ElevenLabs’ $193 million in trailing 12-month revenue comes from corporates like Cisco, Twilio and Swiss recruitment agency Adecco, which use its tech to field customer service calls or interview job seekers.

Epic Games uses it to voice characters in Fortnite, including a chat with Darth Vader (with the consent of James Earl Jones’ estate). The other half of its revenue comes from the YouTubers, podcasters and authors who were early adopters. “When you talk to them, it’s mind-blowing how good they are,” says Gartner analyst Tom Coshow.

Unlike most AI firms, too, ElevenLabs is profitable, netting an estimated $116 million in the last 12 months (a 60% margin). It’s now competing against giants like Google, Microsoft, Amazon and OpenAI to become the de facto voice of AI. It’s not a new space: Tech companies started spinning up products to listen, transcribe and generate speech around a decade ago.

While it’s somewhat of a sideline for Microsoft, Satya Nadella was willing to shell out $20 billion to buy Nasdaq-listed voice transcription service Nuance in March 2022. OpenAI launched its own voice tool, which can feed human conversations into ChatGPT, in October 2024. It Goes to 11 | ElevenLabs’ numero­phile cofounders, Mati Staniszewski (left) and Piotr Dabkowski (right), love the number 11, especially the “rule of 11” divisibility trick.

Their next goal? An $11 billion valuation, naturally.Cody Pickens for ForbesBut ElevenLabs’ 300-person team isn’t playing catch-up. Its models are so good that it’s able to get away with charging up to three times as much as these American rivals. Its library of 10,000 uncannily human-sounding voices is the largest by far and now includes A-listers Michael Caine and Matthew McConaughey.

It’s also more reliable. Data training startup Labelbox tested six of the top voice models with a reading quiz and found that ElevenLabs made half as many errors as its closest competitor, OpenAI. “We are one of the very few companies that are ahead of OpenAI—not only on speech, but speech-to-text and music.

That’s hard,” Staniszewski says. ElevenLabs’ recipe is simple. A tight cadre of machine learning researchers, with obsessive focus on one narrow problem, and a tight budget (the cofounders fronted the first $100,000 training run) drove model breakthroughs. “Having a ton of compute can be a curse because you don’t think how to solve it in a smart way,” Dabkowski says.

But a lawsuit from a pair of audiobook narrators hints at another ingredient. Karissa Vacker and Mark Boyett allege that ElevenLabs used thousands of copyright-protected audiobooks to train its models. They claim so many of their books were scraped that clones of their voices ended up as default options on ElevenLabs.

The case, in which ElevenLabs denied wrongdoing, was settled out of court in November. (Vacker and Boyett did not respond to a comment request; ElevenLabs declined further comment.) Maturity is setting in. The company finally drew up a list of “no go” voices (mostly politicians and celebrities) after an ElevenLabs-made clone of Joe Biden’s voice was used to discourage voting in a robocall campaign around the 2024 Democratic primary.

ElevenLabs now has seven full-time human moderators (plus AI, natch) scouring its clips for misuse. Newly cloned voices need to pass a consent check, and the company offers a free deepfake detector. Staniszewski and Dabkowski have big plans beyond voice. Both cash-strapped creators and budget-conscious media companies wanted royalty-free background music, so they delivered an AI music generator in August.

Don’t have time to shoot a video? ElevenLabs will have AI avatars to front Sora-style videos next year. Their boldest bet is that they can translate their expertise to provide a single hub for clients to manage all their AI tools. “We are building a platform that allows you to create voice agents and deploy them smoothly,” Staniszewski says.

Of course, that puts ElevenLabs on a collision course with a gaggle of other startups hoping to do the same thing. It helps that it’s been profitable since its earliest days, but its startup competitors are richly funded, and the tech giants have virtually unlimited resources. Still, it must innovate.

Voice models will soon be commoditized. When other models catch up, fickle customers that already balk at ElevenLabs’ pricing will likely switch. As it broadens beyond voices to more computationally intensive music and video, ElevenLabs needs to expand its own GPU farms to stay in the race. It has already spent $50 million on a data center project in Oregon.

“If we are to build the generational company in AI, you need to build scale, and we are building,” Staniszewski says. Back in Poland, the aging corps of lektors are still in business, for now. Dabkowski hasn’t forgotten ElevenLabs’ original pitch, boasting that his next model will translate and voice an entire movie in one shot.

“We never give up on our missions,” he says.More from ForbesForbesVibe Coding Turned This Swedish AI Unicorn Into The Fastest Growing Software Startup EverForbesHow An AI Notetaker Became One Of The Few Profitable AI StartupsBy Iain MartinForbesThis AI Founder’s Audacious Plan To Buy Out His Own VCsBy Iain MartinForbesMagic Money: The Mysterious Case Of The $15 Billion Metaverse Startup And Its Anonymous Multi-Billion Dollar InvestorBy Phoebe Liu

Analysis

Conflict+
Related Info+
Core Event+
Background+
Impact+
Future+

Related Podcasts

Hur ett litet polskt startup blev den miljardstora rösten för AI | Goose Pod | Goose Pod