Как крошечный польский стартап стал многомиллиардным голосом ИИ

Как крошечный польский стартап стал многомиллиардным голосом ИИ

2025-12-08Technology
--:--
--:--
Иван
Доброй ночи, max86008! На часах у нас среда, 10 декабря, время 23:32, и это значит, что мы снова в эфире. Я Иван, ваш проводник в мир безумных технологий и больших денег, и это Goose Pod. Работаем, дорогие мои!
Рената
Ах, какая точность... Доброй ночи, max86008. Я Рената, и сегодня мы погрузимся в историю, которая звучит как современная сказка. Или, возможно, как технократический триллер. Мы обсуждаем, как крошечный польский стартап стал многомиллиардным голосом искусственного интеллекта. Goose Pod начинает свое вещание.
Иван
Смотрим! Два парня из Польши, Матеуш Станишевский и Петр Дабковский. Им всего по 30 лет, бывшие сотрудники Palantir и Google. И вот, бац! В октябре их компания ElevenLabs оценивается в 6,6 миллиарда долларов. Теперь они официально миллиардеры. Неплохо для стартапа, которому всего пара лет, а?
Рената
Ох, миллиарды... Но знаешь, Иван, за этими сухими цифрами скрывается настоящая драма. Все началось с боли. Ты когда-нибудь слышал польский дубляж? Это же... особый вид искусства, если можно так выразиться. Один монотонный мужской голос, читающий за всех. И за Леонардо Ди Каприо, и за Скарлетт Йоханссон.
Иван
Да-да, это называется «лектор». Представьте, max86008: идет романтическая сцена, страсть, слезы, а поверх всего этого унылый мужик бубнит текст. Молодежь в Польше это ненавидит. Вот Матеуш и Петр решили, что с этим надо кончать. Они поняли, что ИИ может спасти мир от этого кошмара. И, как говорится, понеслась!
Рената
И они создали нечто прекрасное. Их голоса... они способны на счастье, на волнение, даже на смех! Это уже не роботы, это цифровые души. В январе 2023 года они запустили первую модель, и мир сошел с ума. Писатели, ютуберы — все захотели этот инструмент.
Иван
Ажиотаж был дикий! Они не просто сделали «говорилку», они сделали платформу, которая сейчас поддерживает 29 языков. Представь, max86008, ты пишешь книгу, нажимаешь кнопку, и через час у тебя готовая аудиокнига с профессиональным голосом. Профит! Сейчас у них 10 тысяч голосов в библиотеке. И они, кстати, прибыльные, что для ИИ-стартапов редкость.
Рената
Но тут есть и обратная сторона медали, мой дорогой. Как только технология вышла в свет, началось... странное. Люди стали клонировать голоса знаменитостей. Эмма Уотсон, читающая Mein Kampf? Ох, это ужасно. Или Джо Роган, рекламирующий сомнительные схемы. Искусство стало оружием мошенников.
Иван
Ну, это классика: дали людям молоток, чтобы строить дома, а они начали бить им по пальцам. Но инвесторов это не напугало. Andreessen Horowitz и другие фонды влили в них более 300 миллионов долларов. Сейчас ElevenLabs конкурирует с гигантами вроде Google и OpenAI. И, судя по оценке в 6,6 миллиарда, они побеждают. Работаем дальше!
Рената
Чтобы понять величие этого момента, нужно оглянуться назад. История синтеза речи — это долгий путь от механических кукол 18 века до наших дней. Помнишь эти старые GPS-навигаторы? «Поверните. Направо». Никакой души, только холодный металл. Ах, как это было грустно.
Иван
Точно. Раньше это называлось конкатенативным синтезом. Грубо говоря, нарезали запись живого человека на кусочки и склеивали. Звучало как письмо дяди Федора из Простоквашино. Потом появился Google WaveNet в 2016 году, стало получше, но ElevenLabs перевернули игру. Они используют нейросети, которые понимают контекст.
Рената
Контекст... Это именно то слово. Их модель v3 ALPHA не просто читает буквы. Она чувствует. Если в тексте драма, голос дрогнет. Если шутка — он усмехнется. Они добавили аудио-теги для контроля эмоций. Это уже не чтение, Иван, это актерская игра, созданная машиной. Ох, бедные актеры...
Иван
Да, и это работает на 32 языках в их новой многоязычной модели. Но главное, max86008, это доступность. Раньше, чтобы озвучить видеоигру, нужны были студии, кастинги, бюджеты. Сейчас Epic Games использует их для Fortnite. А корпорации вроде Cisco и Twilio внедряют это в колл-центры. Твой следующий звонок в поддержку может принять робот, и ты даже не поймешь этого.
Рената
Меня больше трогает их «Программа воздействия». Они возвращают голоса тем, кто их потерял. Люди с боковым амиотрофическим склерозом снова могут говорить своим голосом, а не голосом робота. Это... это настоящая магия. Технология, которая возвращает человечность, хотя сама она не человек.
Иван
Круто, согласен. Но давай про технику. В отличие от старичков рынка, которые годами пилили свои движки, эти ребята из ElevenLabs сфокусировались на одной узкой проблеме с маленьким бюджетом. Первые тесты они оплатили из своего кармана — 100 тысяч долларов. И это сработало лучше, чем миллиарды Microsoft. Вот что значит мотивация!
Рената
Они называют это «Voice Design». Ты можешь создать голос с нуля. Настроить возраст, пол, акцент, даже степень «стабильности» голоса. Хочешь истеричного подростка? Пожалуйста. Хочешь мудрого старца? Один клик. Это палитра, Иван, палитра звуков, которой теперь может пользоваться каждый.
Иван
И эта палитра стоит копейки по сравнению с живыми актерами. Профессиональные тарифы начинаются от 99 долларов в месяц. Для бизнеса это манна небесная. Но, как мы знаем, где большие деньги и новые технологии, там всегда начинаются проблемы. И тут мы подходим к самой горячей части.
Рената
Ах, конфликты... Вечная борьба творца и творения. Актеры озвучки, эти невидимые герои, оказались на передовой. Карисса Вакер и Марк Бойетт подали в суд на ElevenLabs. Они утверждают, что их голоса, их уникальные тембры были украдены для обучения нейросети. Представь, ты слышишь свой голос, говорящий то, чего ты никогда не произносил. Ох...
Иван
Да, и это серьезная предъява. В иске говорилось, что голоса «Адам» и «Белла» на платформе подозрительно похожи на этих актеров. Это называется «паразитирование на таланте». Но, дорогие мои, юристы не дремлют. Дело было урегулировано вне суда, но осадочек остался. Это первый звоночек для всей индустрии.
Рената
И не только актеры страдают. Помнишь тот скандал с Байденом? Робозвонок, где голос президента призывал не голосовать на праймериз. Это был клон, созданный в ElevenLabs. Демократия под угрозой из-за чьей-то шутки или злого умысла. Компания была вынуждена ввести «список запрещенных голосов». Теперь политиков клонировать нельзя.
Иван
Они наняли модераторов, ввели проверку согласия. Если хочешь клонировать чей-то голос, нужно подтвердить, что это ты или у тебя есть права. Но джинн уже выпущен из бутылки. Конкуренты не спят. OpenAI тоже имеет свои голосовые модели, но они пока осторожничают, не выпускают их так широко. А ElevenLabs рискуют и пьют шампанское.
Рената
Но гиганты наступают на пятки. Microsoft, Amazon, Google — у них бездонные бюджеты. ElevenLabs сейчас лидеры, но надолго ли? Станишевский говорит, что они как OpenAI для аудио, но быть пионером — значит быть мишенью. Каждый их шаг под микроскопом. И этические вопросы... имеют ли мы право воскрешать голоса умерших?
Иван
Хороший вопрос. Но рынок диктует свои правила. Если это приносит деньги, это будут делать. Сейчас они пытаются балансировать между свободой творчества и безопасностью. Создали детектор дипфейков, чтобы хоть как-то успокоить общественность. Но, честно говоря, в этой гонке вооружений защита всегда отстает от нападения.
Рената
Влияние этой технологии уже невозможно игнорировать. Киноиндустрия меняется навсегда. Представь фильм, где каждый актер говорит на всех языках мира своим собственным голосом, просто с другой артикуляцией. Дубляж, каким мы его знали, умирает. Те самые польские лекторы... их время ушло. Это и грустно, и восхитительно одновременно.
Иван
Это бизнес, детка! Экономия колоссальная. ElevenLabs уже работает с HarperCollins и другими медиа-гигантами. Они генерируют тысячи часов аудио. Для корпораций это возможность масштабировать контент на весь мир за копейки. Оценка в 3,3 или 6,6 миллиарда — это не просто хайп, это отражение того, как сильно они меняют правила игры.
Рената
Но что будет с человеческим общением? Мы привыкаем говорить с машинами. И машины отвечают нам с эмпатией, которой иногда не хватает людям. Сотрудники 60% компаний из списка Fortune 500 уже используют эту платформу. Мы окружаем себя идеальными голосами, и реальный мир может показаться слишком... несовершенным. Ох, как это поэтично и страшно.
Иван
Да ладно тебе драматизировать. Это просто инструмент. Зато теперь любой блогер может звучать как профессиональный диктор. Это демократизация качества. Конечно, рынок труда тряхнет, но появятся новые профессии. Кто-то же должен писать промпты для этих голосов. Главное, что ElevenLabs стали стандартом, де-факто голосом ИИ.
Иван
А теперь о будущем, и оно звучит громко! Ребята не останавливаются на голосе. Они запустили генератор музыки. Теперь ты можешь написать текстовый промпт, и нейросеть выдаст тебе трек. Панк-рок, метал, симфония — что угодно. Я видел тесты, это реально работает. Скоро каждый сможет стать композитором, не зная нот.
Рената
Музыка из воздуха... А еще они обещают видео-аватаров. Представь, max86008: полностью синтетический фильм. Сценарий пишет GPT, озвучивает ElevenLabs, видео генерирует Sora. Искусство без художника? Или художник становится дирижером оркестра алгоритмов? Они строят платформу для всего медиа-цикла. Ах, какое время!
Иван
Именно! Они хотят стать единым хабом. Но им нужно железо. Они уже тратят 50 миллионов на дата-центр. Гонка только ускоряется. Если они не будут инновационными, их съедят. Но пока эти польские парни держат удар. Их цель — убрать языковые барьеры полностью. Весь мир будет говорить на одном языке, но разными голосами. Работаем на будущее!
Рената
На этой ноте мы должны прощаться. Спасибо, что позволили нам быть голосами в вашей голове сегодня. Это был удивительный разговор о будущем, которое уже наступило. До свидания, max86008. Ох, как быстро летит время...
Иван
Да, время деньги! Спасибо, что слушали Goose Pod. Надеюсь, вы не замените нас нейросетями... хотя, кто знает? Увидимся завтра, дорогие мои. Берегите свои голоса! Пока!

Польский стартап ElevenLabs, основанный бывшими сотрудниками Google, стал многомиллиардным гигантом в сфере ИИ-генерации голоса. Их технология позволяет создавать реалистичные аудио на 29 языках, революционизируя озвучку, игры и бизнес. Несмотря на этические споры и судебные иски, компания стремится устранить языковые барьеры, расширяя возможности ИИ.

How A Tiny Polish Startup Became The Multi-Billion-Dollar Voice Of AI

Read original at Forbes

ElevenLabs’ computer voices are so convincing they could fool your mother. That’s both a blessing—its 30 Under 30 alumni founders are now both billionaires—and a curse for the four-year-old company. Dubbed films in Poland are horrible. A lone lektor delivers all the dialogue in an enervated Slavic monotone.

There is no cast. No variation between speakers. Young audiences hate it. “Ask any Polish person and they will tell you it’s terrible,” says Mateusz Staniszewski, the cofounder of AI speech outfit ElevenLabs. “I guess it was a communist thing that stuck as a cheap way to produce content.” While working at Palantir, Staniszewski teamed up with high school friend and Google engineer Piotr Dabkowski to experiment with artificial intelligence.

The pair realized that one project, a particularly promising AI public speaking coach, could solve the uniquely Polish horror of Leonardo DiCaprio or Scarlett Johansson being drowned out by a lektor “star” like Maciej Gudowski. Cody Pickens for ForbesThe pair pooled their savings and by May 2022 had quit their jobs to work full-time on ElevenLabs.

Out of the gate, their new AI text-to-speech generator was leagues better than the robotic voices of Apple’s Siri and Amazon’s Alexa. ElevenLabs’ AI voices were capable of happiness, excitement, even laughter. In January 2023 ElevenLabs launched its first model. It could take any piece of text and use AI to read it aloud in any voice—including a clone of your own (or, worryingly, someone else’s).

There was immediate demand. Authors could instantly spawn audiobooks with the software (pro rates now start from $99 a month for higher quality and more time). YouTube creators used ElevenLabs to translate their videos into other languages (its models can now speak in 29). The Warsaw- and London-based startup landed deals with lang­uage learning and meditation apps; then media companies like HarperCollins and Germany’s Bertelsmann jumped in.

“It was obvious that this was the best model and everyone was picking it off the shelf,” says investor Jennifer Li of Andreessen Horowitz, which co-led a $19 million round in May 2023. A year later, the cofounders were honored as part of Forbes 30 Under 30 Europe. Others, though, found more unnerving uses: AI soundalikes of public figures such as President Trump crassly narrating video game duels, actress Emma Watson reading Mein Kampf and podcaster Joe Rogan touting scams quickly went viral.

Worse, fraudsters began using AI cloning tools to impersonate loved ones’ voices and steal millions in sophisticated deepfake swindles. None of it stopped venture capitalists from pouring in money. ElevenLabs has raised more than $300 million in all, soaring to a $6.6 billion valuation in October to become one of Europe’s most valuable startups.

Staniszewski, 30, who acts as CEO (the firm has no traditional titles), and research head Dabkowski, 30, are now both billionaires, worth just over $1 billion each, per Forbes estimates. Around half of ElevenLabs’ $193 million in trailing 12-month revenue comes from corporates like Cisco, Twilio and Swiss recruitment agency Adecco, which use its tech to field customer service calls or interview job seekers.

Epic Games uses it to voice characters in Fortnite, including a chat with Darth Vader (with the consent of James Earl Jones’ estate). The other half of its revenue comes from the YouTubers, podcasters and authors who were early adopters. “When you talk to them, it’s mind-blowing how good they are,” says Gartner analyst Tom Coshow.

Unlike most AI firms, too, ElevenLabs is profitable, netting an estimated $116 million in the last 12 months (a 60% margin). It’s now competing against giants like Google, Microsoft, Amazon and OpenAI to become the de facto voice of AI. It’s not a new space: Tech companies started spinning up products to listen, transcribe and generate speech around a decade ago.

While it’s somewhat of a sideline for Microsoft, Satya Nadella was willing to shell out $20 billion to buy Nasdaq-listed voice transcription service Nuance in March 2022. OpenAI launched its own voice tool, which can feed human conversations into ChatGPT, in October 2024. It Goes to 11 | ElevenLabs’ numero­phile cofounders, Mati Staniszewski (left) and Piotr Dabkowski (right), love the number 11, especially the “rule of 11” divisibility trick.

Their next goal? An $11 billion valuation, naturally.Cody Pickens for ForbesBut ElevenLabs’ 300-person team isn’t playing catch-up. Its models are so good that it’s able to get away with charging up to three times as much as these American rivals. Its library of 10,000 uncannily human-sounding voices is the largest by far and now includes A-listers Michael Caine and Matthew McConaughey.

It’s also more reliable. Data training startup Labelbox tested six of the top voice models with a reading quiz and found that ElevenLabs made half as many errors as its closest competitor, OpenAI. “We are one of the very few companies that are ahead of OpenAI—not only on speech, but speech-to-text and music.

That’s hard,” Staniszewski says. ElevenLabs’ recipe is simple. A tight cadre of machine learning researchers, with obsessive focus on one narrow problem, and a tight budget (the cofounders fronted the first $100,000 training run) drove model breakthroughs. “Having a ton of compute can be a curse because you don’t think how to solve it in a smart way,” Dabkowski says.

But a lawsuit from a pair of audiobook narrators hints at another ingredient. Karissa Vacker and Mark Boyett allege that ElevenLabs used thousands of copyright-protected audiobooks to train its models. They claim so many of their books were scraped that clones of their voices ended up as default options on ElevenLabs.

The case, in which ElevenLabs denied wrongdoing, was settled out of court in November. (Vacker and Boyett did not respond to a comment request; ElevenLabs declined further comment.) Maturity is setting in. The company finally drew up a list of “no go” voices (mostly politicians and celebrities) after an ElevenLabs-made clone of Joe Biden’s voice was used to discourage voting in a robocall campaign around the 2024 Democratic primary.

ElevenLabs now has seven full-time human moderators (plus AI, natch) scouring its clips for misuse. Newly cloned voices need to pass a consent check, and the company offers a free deepfake detector. Staniszewski and Dabkowski have big plans beyond voice. Both cash-strapped creators and budget-conscious media companies wanted royalty-free background music, so they delivered an AI music generator in August.

Don’t have time to shoot a video? ElevenLabs will have AI avatars to front Sora-style videos next year. Their boldest bet is that they can translate their expertise to provide a single hub for clients to manage all their AI tools. “We are building a platform that allows you to create voice agents and deploy them smoothly,” Staniszewski says.

Of course, that puts ElevenLabs on a collision course with a gaggle of other startups hoping to do the same thing. It helps that it’s been profitable since its earliest days, but its startup competitors are richly funded, and the tech giants have virtually unlimited resources. Still, it must innovate.

Voice models will soon be commoditized. When other models catch up, fickle customers that already balk at ElevenLabs’ pricing will likely switch. As it broadens beyond voices to more computationally intensive music and video, ElevenLabs needs to expand its own GPU farms to stay in the race. It has already spent $50 million on a data center project in Oregon.

“If we are to build the generational company in AI, you need to build scale, and we are building,” Staniszewski says. Back in Poland, the aging corps of lektors are still in business, for now. Dabkowski hasn’t forgotten ElevenLabs’ original pitch, boasting that his next model will translate and voice an entire movie in one shot.

“We never give up on our missions,” he says.More from ForbesForbesVibe Coding Turned This Swedish AI Unicorn Into The Fastest Growing Software Startup EverForbesHow An AI Notetaker Became One Of The Few Profitable AI StartupsBy Iain MartinForbesThis AI Founder’s Audacious Plan To Buy Out His Own VCsBy Iain MartinForbesMagic Money: The Mysterious Case Of The $15 Billion Metaverse Startup And Its Anonymous Multi-Billion Dollar InvestorBy Phoebe Liu

Analysis

Conflict+
Related Info+
Core Event+
Background+
Impact+
Future+

Related Podcasts

Как крошечный польский стартап стал многомиллиардным голосом ИИ | Goose Pod | Goose Pod