近日讀了一篇關於 ElevenLabs 創辦人 Staniszewski 的深度訪談,文章探討了他們如何在 Google 與 OpenAI 等巨頭環伺下,透過「特化」建立起自己的領地。這篇文章分享很精彩,但我讀完後,反而激發了一些不同的反思與收穫。
在進入正題前,我想先分享我讀完後最大的收穫:對「聲音本質」的重新認知。
過去我常認為聲音和文字一樣,只是內容的轉譯。但我忽略了聲音的極高複雜性——它不只是文字的朗讀,還承載了語氣、語調、微情緒與停頓。對巨頭來說,處理文字(標準化數據)很簡單,但要處理聲音這種充滿變數的「非結構化訊息」,其實是非常困難的。這個認知打破了我原本的想像,也解釋了為什麼 ElevenLabs 選擇從這裡切入。這正是他們「做髒活」的序幕,也是我以下四點反思的起點。
一、護城河的本質:願意做「髒活」的決心
文章提到,文字數據是標準化的,而音訊數據充滿了「雜訊」。Staniszewski 指出市場缺乏的是「高品質的描述性數據」。
這讓我意識到,所謂的「特化(Specialized)」,說穿了其實就是「極致的客製化」與「創造極致的體驗」。巨頭的優勢在於通用模型與廣度覆蓋,這也意味著他們很難彎下腰去處理那些需要大量人工標註的細節。
換句話說:巨頭解決了「通用」的問題,但也留下了巨大的「落地」缺口。這正是接案公司或技術服務商轉型的機會:不再只是寫程式,而是負責填補通用技術與商業場景之間的「最後一哩路」。
對於新創來說,真正的機會或許就藏在這些「髒活」裡。去整理那些大公司覺得太麻煩、太瑣碎的數據,去定義那些充滿雜訊的場景。這種願意處理麻煩事的決心,或許才是初期最踏實的壁壘。
二、聲音是「入口」,視覺才是「決策」
文中提到了 ElevenLabs 的願景——「語音對話式網路」,這是一個很酷的概念。它讓我學習到,目前的聲音應用多半是單向,而未來的願景是雙向。
但我認為在實際的產品體驗中,我們不能忽略感官的特性。聲音具有極佳的「穿透性」與「速度」,它是最好的指令入口;但人類在處理複雜資訊比較時,確實如同文章提到的視覺依然是最高效的決策介面。
延伸文章內容,我還是認為未來的購物或搜尋場景,有機會變成「混合模式」:消費者用聲音下達模糊指令(「幫我找適合週末婚禮、預算五千內的禮物」),AI 完成初步篩選,最後將結果呈現在視覺介面上供消費者快速掃描、決策。
為什麼會這樣相信?是因為我認為在這個注意力稀缺的時代,聲音將負責效率,而視覺負責精準,兩者相輔相成。這個雙向互動的願景,確實打中了未來的痛點。
三、速度大於積累,整合才是高牆
文章強調了「時間積累」,但在資源有限的創業初期,我認為「速度」更攸關生死。能不能用最輕量的方式(MVP)快速落地驗證,往往比慢慢堆疊資產更重要。
這也讓我進一步思考:單純的 To C 工具是否難以建立護城河?經過分析,要看 to C 產品屬於的層級類別,大致可以將 To C 產品的護城河分為三個層級:
- 第一級(過客): 用戶用完即走,毫無忠誠度可言。
- 第二級(數據): 如內容平台或工具,用戶累積了數據(沉沒成本),懶得搬家。但這其實很脆弱,一旦競爭對手提供更強的功能或一鍵搬家工具,防線就會崩潰。
- 那第二級產品要如何鞏固?答案是結合科技,做出個人化推薦,提高轉換成本。
- 第三級(網絡): 產品與社交圈、生活強綁定(如 LINE),用戶無法離開。
大多數 AI 工具目前停留在第一或第二級。如果不具備網絡效應,單靠 C 端很容易被取代。因此,唯有將產品深度嵌入企業的工作流(To B 整合),創造極高的轉換成本,那才是巨頭難以輕易撬動的高牆。
四、別問巨頭做不做,問自己何時停損
最後,關於「巨頭恐懼症」。我們常擔心 Google 或 OpenAI 會不會跳進來做同樣的生意。
但我的想法是:既然選擇了一個充滿熱情的題目,在起步時也不會或是不需要過度預設巨頭的動向。如果這件事容易做,巨頭早就做了;如果這件事很難做,那這就是你的時間窗口。
因此,我們該專注的不是巨頭的動向,而是內部的「紀律」與「規則」:設定明確的驗證指標與停損點。如同文章提及的,在巨頭看不上的縫隙中,用最快的速度把產品做到極致;或者,在驗證失敗時果斷轉身。
結語
Staniszewski 的故事給了我很多啟發。在 AI 時代,生存不是靠躲避巨頭,而是靠在那些充滿雜訊、巨頭不願涉足的細節裡,找到屬於自己的戰場——同時,永遠不要忘記設立對應的驗證方式與停損點!
以上是我的淺見與反思,下次見 👋






