Good Luck To You!

手机扫一扫

推出AI耳機，位元組真正的野心是什麼？

鳳凰科技 2024-10-29 01:35:34 5

10 月 10 日上午，位元組跳動豆包釋出了一款硬體產品——AI 智慧體耳機 Ola Friend。該產品是一款開放式耳機，單耳 6.6 克同類最輕，可接入豆包大模型，並與豆包 App 深度結合，售價 1199 元。

使用者戴上耳機後，無需開啟手機，只需喊出關鍵詞「豆包豆包」，便能喚起豆包進行對話，後者能夠在資訊查詢、旅遊出行、英語學習及情感交流等場景為使用者提供幫助。

今年以來，大模型應用落地加速的同時，AI 手機、AI 耳機、AI 眼鏡等 AI 硬體新品紛紛湧現，究竟誰能成為 AI 時代，使用者與人工智慧互動的第一個入口？

Ola Friend 並不是位元組推出的第一款硬體產品，但此前包括大力檯燈以及收購 PICO 後的探索並未出現明朗結果，這次會有所不同嗎？

目前可以看到的是，相比之前更為激進的策略，Ola Friend 這款 AI 耳機的定位迴歸到基礎階段，在功能上遠低於大家想象，但這似乎反而體現了位元組思考得很清楚——今天在想象 AI 硬體的時候，不應該太過於樂觀，而是應該更務實地來想這件事。

在 Ola Friend 釋出當晚，極客公園「今夜科技談」直播間邀請了極客公園創始人 & 總裁張鵬，和靈宇宙創始人顧嘉唯一起聊了聊，這款這款 AI 耳機對於位元組跳動的意義、以及 AI 硬體產品真正的機會到底在哪裡。

以下是直播沉澱文字，由極客公園整理。

位元組推 Ola Friend：

只邁出了 0.1 步？

張鵬：你怎麼看位元組今天推出的 Ola Friend 耳機？它在預期之中嗎？

顧嘉唯：這款產品的定義方向是正確的，不過它目前只邁出了 0.1 步，還需要進一步迭代。

從 Google Glass 到今天的 Ray-Ban Meta，這些終端的探索，實際上是所有科技公司夢寐以求的大目標——打造類似電影《Her》的 Personal AI。

過去 20 年間，爭奪入口始終是商業競爭中的巨大挑戰，尤其是在互動層面上。位元組推出 Ola Friend，是一次不錯的嘗試——先把使用者在手機裡用「豆包」APP 調到耳機裡，離人更近。

值得一提的是，Ola Friend 謹慎控制了預期，沒有盲目擴充套件功能。做硬體產品，很重要的一個能力就在於不斷做減法、做收斂。

張鵬：所以你認為 Ola Friend 沒有發散功能、控制使用者的預期是對的。

顧嘉唯：產品的外觀設計方面，很多人認為它跟上一代區別不大，甚至在質疑為何使用傳統的 TWS 耳機來冒充 AI 硬體。

Ola Friend 目前四種配色｜圖片來源：Ola Friend

事實上，位元組是在透過這種方式管理使用者預期，讓使用者先認為它只是一個普通耳機，然後當它在軟體端的 AI 能力展現出來時，使用者就會感受到超出預期的體驗。這樣做的目的也是為了讓「豆包」更容易觸達使用者，降低使用者使用「豆包」的門檻、減少進入層級，以提高活躍率為小目標的。

在我的使用體驗中，豆包在電腦端的功能表現還是很出色的，無論是外掛、劃詞、截圖等功能，響應迅速、便捷高效，很好地提升了工作效率。但是在移動端的表現就不太盡如人意了。這背後有很多原因，其中之一在於入口之爭的難度所在。

雖然豆包不具備像 Google Assistant 那樣的系統層能力，但在應用層面，它本質上構建的是一個 AI friend 的角色，來提供情感互動。

使用「豆包」比較多的話，會發現上面有許多 agent，這些 agent 不僅在文字轉語音（TTS）的音色上表現出色，還能透過情感表達讓人產生共鳴。這種情感互動的體驗，也正是過去半年 GPT 技術不斷發展的成果之一，尤其是透過網際網路文字到影片資料訓練湧現出的結果。

如果你使用過 Ola friend 這款產品，就會體驗到一種「aha moment」，就是那種強烈的陪伴感，就像身邊有人在跟你低語交流。這種陪伴感正是吸引使用者的重要特質之一。

張鵬：所以它本質上很多互動其實超越了手機的形態。

顧嘉唯：對，只是說它今天還沒有做到環境感知、主動理解。

張鵬：做到的話，那就真的是有點往 her 走了。

顧嘉唯：現在它至少已經實現了「即喚即用」（Instant On）的功能。雖然還沒有到「始終線上」（Always On）的程度，但當使用者需要時，它的喚醒方式非常便捷——無論是透過輕觸，還是使用喚醒詞，使用者都可以很輕鬆地啟動裝置。耳機本來就是手機搭配非常自然的延伸裝置了，做到比手機更隨時隨地更 on demand 的選擇，這是一個最安全低摩擦的一個品類選擇。

接下來，我覺得應該再往前一步，把環境感知和主動互動加入進來，這樣才能真正與手機的使用區分開來。我們靈宇宙認為下一代 AI 硬體形態可能是各種形式，但有一點是重要的：可以更多更長時地感知使用者周圍的環境空間資訊，進一步作為輸入，從被動地需要使用者喚起轉變到可以主動感知並且支援使用者。同時做了 CoT 的演算法設計，去更深層次理解人的意圖，把被動喚醒變成主動理解人意圖、能察言觀色、有眼睛見兒的深度互動。

和以往互動模式有什麼不同呢？我自始至終一直在做「互動」這件事情，在微軟研究院的時候從事的行業就是人機互動，大家一直談論 GUI、TUI、LUI、以及我們主動互動的 NUI，核心都是在於迴歸以「人」為中心的互動。這也就是為什麼我認為今天 Ola friend 只邁出了 0.1，而後面的 0.9 還會有極大的變化，我正帶著團隊鎖定 NUI 的下個代際躍遷。

探尋 NUI 的同時，在 Personal AI 和 Ambient AI 領域中探索 AI 產品在空間互動技術棧和資料獲取的潛力。目標是構建一個可隨身攜帶、互動式的 AI 產品，無論是任務型、服務型，還是情感陪伴型，都是探索的方向。

給 AI 加了個硬體？

張鵬：位元組推 AI 耳機，某種程度上是不是可以理解為，有價值的是 AI，給 AI 加了個硬體？

顧嘉唯：手機是最大消費硬體，短期內難脫離「以手機為中心」環境，你可以理解豆包耳機所有的價值功能幾乎都來自於手機上的豆包 APP。AI 給手機帶來的不只是功能疊加，而是重新定義執行方式和互動模式。

在場景中用更好軟體體驗升級可稱「加 AI」，如手機上各類被 AI 賦能升級的應用及功能整合的手機 OS 正被大模型以 SDK 化改造升級，這是商業化落地有效路徑。以 AI 為中心重構手機日常使用方式，包括互動流程等；系統級 AI 助手包括意圖理解與指令執行。

大模型以 Agent 形式重構使用者與手機互動，包括新 AI 硬體變化，人們也在找「AI 原生」場景及解決方案，有 AI 後這些場景能打通。

不過，定義這兩類產品時思考方式不同。若產品基本能力已佔據高頻場景，就有機會透過 AI 替代、提效或替代非 AI 完成的功能，這種機會確實存在。

我們今天聊的主要是能成為 AI 互動入口型別的產品對吧。對於「加 AI」，在智慧音箱出來之前，我們曾經在 2015 年前後定義了一類家庭管家助理類的產品叫 Jibo，是基於 rule-based 寫的指令碼，我們增加了多模態，增加了視覺，他能夠看得見，所以他有機會環境感知；而對於 AI 原生，我在過去的非常多產品嚐試，例如 Luka 盧卡出現之前家長給孩子讀繪本只能自己讀，學習機品類還是一塊屏沒有攝像頭掃題指讀，基於 Luka 盧卡把桌面上的互動場景變成一個可互動的多感官空間。我過去的很多產品，尤其是在軟體端，都是基於這樣的思考進行的。

很多創業者在上一個週期前仆後繼地進入這個領域，現在大機率也逃不出這個迴圈。從這個角度來看，有一類我定義成「容器屬型」的產品可能並不是完全的 AI 原生，而是上一個週期的產品基礎上「換 AI」，例如從 rule-based 換成了 LLM Agent，場景互動真實升級後，催生了原本需求的啟用，帶來了更高的市場天花板。這個邏輯套到現在我們陸續看到的成功的 AI 硬體產品上都是適用的。

張鵬：總體來看，目前還沒有那種能夠穩定成長的目標級產品。不管是 TPF（技術可行性）還是 PMF（產品市場契合），都沒有真正實現。不過隨著時間的推移，我相信我們越來越有機會找到結合 TPF 和 PMF 的AI硬體。

位元組跳動今天推出了一款在功能上遠低於大家想象的AI耳機，但反而體現了位元組思考得很清楚，今天在想象 AI 硬體的時候，還是不應該太過於樂觀，還是應該更務實地來想這件事。

顧嘉唯：我認為在未來一到三年，甚至三到五年內，AI 硬體創業者擁有巨大的機會，前途無量。這些機會源於底層技術能力的進步在今天真正實現了有價值的落地。

張鵬：未來我們需要思考的是，AI native 的硬體是否能真正發揮作用，關鍵在於與使用者的互動時長嗎？如果這些產品只是短暫使用，是否意味著它們僅解決特定問題，從而變成一種目的性的硬體，也就變成了硬體+AI。

而真正抓住未來機會的關鍵，可能還是在於如何深入融入使用者生活，延長使用時長，不斷為他們提供個性化、持續的價值體驗。

離個人助理還有多遠？

Ola Friend 可以當作「隨身百事通」使用｜圖片來源：Ola Friend

張鵬：從情緒價值這個層面去切，我其實也非常認同，因為我覺得在過去一段時間裡，整個大模型領域印證了一點，大模型能夠確定交付的一個價值就是情緒價值。

那繼續往下走，是不是就是要在系統側做一個 assistant？也就是從目前的情感搭子逐漸轉變為一個更加實用有效的助理。你覺得這種發展路徑存在嗎？

顧嘉唯：豆包其實已經在電腦端上無論是瀏覽器還是螢幕許可權都拿捏得很好，不斷提升使用率和觸發率的各種場景，但在手機上實現這一點就很難。人們可能更傾向於從手機的複雜環境中提取出一個能夠更高頻使用助理和情感互動功能的場景。透過推出這款耳機，位元組至少找到了一條可能的路徑。

很多人期待這款耳機能夠具備的一些功能，事實上並沒有，比如說訊飛耳機已經支援的電話錄音和語音摘要這些功能，但這款豆包耳機卻並沒有具備，這其實就是產品在做「減法」的結果。

Ola Friend 現在更專注於在某些垂直場景中打磨出色的使用者體驗。比如英語口語陪練、汽水音樂與位元組私有音樂生態結合等主打場景，都是適合大模型現階段「笨任務」相對穩定可靠的技術低垂果實，應先將一兩個核心功能做到 80-90 分，而非在多個功能上平均用力致每個僅 50-60 分。在 AI 創新產品開發 PMF 多年，吃過最多的虧就是以前總習慣於去挑「聰明任務」去做，前沿技術「不穩定」致創新體驗不足以支撐替換成本的情況很多。

這是對於定義 AI 硬體，或者任何以軟體驅動為核心的消費級硬體來說，非常重要的策略。

再回到個人助理的這一點，目前距離要做出一個真正意義上的個人助理還相當遙遠。要知道現在在豆包裡想要打電話都還不行。這不光是涉及技術本身的程序，還包括商業生態的打通。

在新興的技術入口之爭中，首先入局的往往是手機廠商，緊隨其後的是像微信這樣的超級應用。也就是說，一旦 AI Agent 助理技術發展到一個高度成熟的 PMF 階段，手機廠商和這些超級應用巨頭都會迅速湧入，位元組推出 Ola Friend，算是搶跑了一步。不過若是各家手機廠商的 TWS 耳機都聯調適配好了自家 AI-OS 以後，屆時豆包 inside 生存空間會是什麼樣呢？

真正的目標：

掌握互動入口

張鵬：我在想，對於位元組跳動這樣的公司來說，這款耳機是否能夠賺錢，或者能賺多少錢，並不是他們最關心的問題。它更像是豆包的一個輔助工具，這樣理解對不對？

顧嘉唯：如果我們猜測張一鳴特別想要全面投入 AI 這個入口，那麼他可能不會把硬體作為商業模式，因為無論是 PICO 還是大力檯燈，位元組已經走過一遍路徑了。

除了耳機，眼鏡、項鍊這些形式都是有機會的，只要能離人的五官，也就是離人類天生的感測器更近，比人看得更清楚，聽得更清晰，擁有第二大腦，無縫地提供 AI Agent 服務，就有機會成為下一個 AI 入口。這種互動方式實際上更有可能實現從即時啟動（instant on）到始終開啟（always on）的轉變。互動方式創新了，就會產生新場景。

可能位元組真正的目標還是想要掌握超級應用的入口。如果把互動入口作為第一性原理來看，那麼肯定要通往 her，要做一個高度個性化的 AI 助手，這也是所有科技大佬的夢想。

張鵬： 那基本可以預料未來 AI 耳機這個品類一定會有更多的品牌進來做。核心問題在於，AI 耳機的競爭力到底是體現在其 AI 技術上，還是耳機的硬體質量上？另外，AI 耳機真的是一個值得投入資源去競爭的賽道嗎？

顧嘉唯：我非常相信 Mark Weiser 對人機互動的未來發展路徑規劃——ubiquitous computing 隱形計算。手機之後，更輕、更小、更隨身的個人穿戴終端將成為 Personal AI核心價值的延伸。在這一過程中，耳機、眼鏡、項鍊等產品形態是創業者需探索的方向，關鍵在於後端互動體驗的承載，是各家需深耕之處，也是資本市場有較高期待的領域。

我們來看當下人互動的主流媒介還是「接觸式」的，例如手機、電腦，體驗最好的互動方式還是手機；而「非接觸式」的，例如體感遊戲機、智慧音箱、智慧家居等透過手勢、語音、聲控；可穿戴裝置介於這兩者之間，屬於「嵌入式」，這裡面的產品形態和匹配的互動方式還有很大的創新空間。

張鵬：那回到 AI 耳機，它的長期競爭力是不是更多地依賴於其軟體和 AI 能力，而不是硬體本身？

顧嘉唯：對。

張鵬：AI眼鏡會是更好的選擇嗎？位元組這次推出了 AI 耳機而不是 AI 眼鏡這件事，你是怎麼看的？

顧嘉唯：位元組肯定是有在做AI眼鏡的，無論是頭盔式 VR，還是其他輕量型裝置，例如 BB 和光波導等光機畫幅技術實現透視效果的裝置，位元組都有在積極探索和做迭代。

對於像位元組這樣的網際網路大廠來說，選擇做硬體不僅是基於情懷，更是對構建入口的持續追求，探索和試錯都是必經之路。

儘管目前還沒看到位元組釋出類似 Ray-Ban Meta 這樣的硬體產品，但可以預見，他們必然會沿著這條路徑尋找機會並逐步推出相關裝置。

在今天，探討耳機與攝像頭結合的必要性很明顯。提升 AI Agent 助理功能，從 instant on 到 always on，成為更好的獨立 AI 硬體或手機輔助配件以支援更多互動和 AI 功能，一定要輕薄便攜，不應笨重，更不應去跟日漸普及的手機摺疊屏 PK 顯示效率。

張鵬：不要低估位元組在佈局硬體上的資金、動力以及決心。不過就眼鏡來說，如果想讓智慧眼鏡成為取代下一代手機的終端，在今天是非常困難的，很難實現。但如果目標不是從手機螢幕上爭奪使用者的使用時間或螢幕使用量，那可能就會是另一個討論方向？

顧嘉唯：從長期來看，比如五年、十年，甚至更長的時間週期內，有可能會出現一種替代手機，成為新的互動中心的可穿戴裝置。

這種裝置應該具備顯示功能、支援多模態互動，能夠感知環境，還能夠進行成像和有良好的畫幅顯示錶現。

張鵬：重要的是至少五年，不要想明年。不過光機方面最近還是會有一些進展。

AI硬體的真正機會在哪裡？

張鵬：怎麼理解在眼鏡上面加攝像頭這件事它真正的意義？

顧嘉唯：空間智慧和空間互動是技術演進中一個非常好的載體。它的第一步是看今天的大模型能否從文字能力湧現出更多的認知，進而朝著 CoT（Chain of Thought，思維鏈）和推理能力的方向發展，然後引入更多的空間認知。

百度 2014 年推出了 BaiduEye，一款穿戴式產品原型｜圖片來源：百度

之前我在百度選擇開發 BaiduEye 與 Meta 現在選擇推出 Ray-Ban Meta 是出於相同的目標。BaiduEye 欲成為人類的「第二個大腦，第三隻眼睛」，打通物理世界空間互動資料集以索引真實世界，其產品原型受以色列 AI 視覺公司 OrCam 的 MyEye 啟發，其創始人 Ziv 也是 Mobileye 創始人，瞭解自動駕駛歷史的朋友一定不陌生。推動此目標過程中，已見大模型在前端意圖理解和後端自動化執行有顯著突破，中間缺失資料來源可由 AI 眼鏡這類載體補充以完成空間智慧構建。

張鵬：攝像頭其實能起到第一人稱視角的資料來源的輸入。

顧嘉唯：關係演算法和空間互動是通向 Personal AI的必經之路，透過這條路的核心是資料集。

今天佔據「空間互動」資料閉環是競爭關鍵。未來做具身智慧或通用人形機器人，所需資料來源既要像第三視角，如遊戲過肩視角，觀察人在真實場景互動，包括人與人、人與物、人與空間互動；又要以人本身視角完成第一視角操作。

從資料來源的價值角度來看，大家在未來的發展路徑應是相似的，關鍵在於誰的資料構建速度更快，但這波核心在於感知。感知指什麼？AI 硬體疊加多模態能力後蒐集大量多模態資料，此多模態非原有文字或螢幕二維維度所具備，先有感知再有互動升維是 AI 迭代重要條件。當前具身領域正在經歷硬體的迭代，但最終硬體能力可能會相差無幾，核心在於感知互動及由此帶來的能力差異。靈宇宙針對隨身 AI 場景積累大量感知的空間互動資料，使 AI 互動進化出不同體驗。

張鵬：這一切的核心在於，如果未來我們想要基於AI為使用者交付價值，就需要給 AI 提供更豐富的資訊輸入，而不僅僅依賴使用者的指令。只有這樣，AI 才能更默契地與使用者互動，透過更簡單的互動提供更大的個性化價值。如果一切都依賴於使用者來提供資訊，那使用者會非常疲憊。

從手機中抽取時間，本質就是要為使用者提供超越以往的價值。這意味著要在一些手機無法實現的場景中，提供更好的體驗。雖然手機積累了大量資料，但仍然是有限的。所以需要在資料維度上做得更加豐富，才能真正交付出AI的個性化價值。這可能就是我們今天所說的 AI 硬體的真正機會。

顧嘉唯：今天螢幕上，多模態任務操作簡潔直白，為流式互動路徑，可同時多模態、多工並行操作。但耳機和語音場景只有線性操作，任務高效性不足，那怎麼改變？需讓 AI 先完成主動處理部分，即我們靈宇宙要做的 Proactive Intention 主動意圖互動。

原來所有功能靠調 API 操作，如今大模型能中控排程持續獲取服務和呼叫資訊，跳過 GUI 應用層寫指令碼，模型更小、執行效率更高，推動了 agent 發展，能更靈活產生價值。

張鵬：互動這件事兒，過去是人機互動，是人在將就機器，因為機器不懂人的東西，我們就是哄著人們說你用這種方式讓機器理解你的意圖。但未來終於到了，機器應該主動去理解人的這個階段。

顧嘉唯：傳統人機互動模式是基於資訊流和服務流的推送，這是早期網際網路和移動網際網路發展階段的典型特徵，人們更多是透過學習如何與機器互動，來獲取資訊或服務。

現在，隨著 AI 技術的驅動，互動模式正在發生根本性變化。未來的互動將不再是單純的人與機器的互動，而是基於「思維鏈」來重塑 AI，基於"關係鏈"來塑造內容。這意味著，未來的 AI 互動將會更注重人際關係和社交屬性及人與環境空間關係，而非僅依賴機器功能服務。

隨著這種轉變，傳統人機互動可能會逐漸消失，取而代之的是人與「類人」智慧體的互動。這種互動方式不再是簡單命令執行，而是更接近於人際關係中的互動——包含情感陪伴、任務完成、結果交付等方面的社會化屬性。未來的 Agent 智慧體將會模擬人的行為和情感，與人類建立更加緊密的關係，成為一種社會化的存在。屆時，或許由計算機、電子工程自動化等構建起來的人機互動也就消亡了，取而代之的是政治、法律、社會學等構建的人「人」互動。

創業者要避開哪些坑？

張鵬：上一波的AI硬體，其實沒有特別成功的東西出來，這一波 AI 加到硬體上，可能會面臨什麼坑？

顧嘉唯：今天佔據空間互動，資料閉環是競爭關鍵。從資料來源價值看，未來發展路徑相似，關鍵是誰的資料構建速度更快。這波 AI 硬體公司最大的坑可能是忽視這一點，或沒有能力做到這點——誰都知道資料價值，但就是「啟動無資料優勢，過程無價值資料」。

目前市場上的許多智慧硬體產品實際上無法真正被稱為「智慧」。這是因為人們往往對其「智慧」功能寄予厚望，期待它們能帶來顛覆性的使用者體驗，但在實際交付時往往遠低於這些預期，導致許多使用者失望。

例如今天的語音互動產品中，使用者「可感知」的智慧之一就是「Barge-in 隨時打斷」，NUI 自然對話智慧裡最大的摩擦是使用者已經開口說了，機器 AI 還沒反應過來還在那自說自話的違和感，然後機器 AI 說話時出現衝突，要不搶話，要不跟不上節奏，就顯得很弱智，不像跟身邊的人講話那麼自然流暢。其實，只要使用者必須遷就機器，就不是一個好的的人機互動。

過往我們迭代語音產品時，就是典型的需要攻克的一個技術項「全雙工打斷」。透過 VAD 語音活動檢測，結合通道降噪，以及音影片各通道的資訊理解做融合策略和對話控制管理。

相比於原來智慧音箱類場景，其實這個技術難點在耳機場景已經好解決很多，因為耳機貼近人的感官耳朵和嘴巴，語音採集的訊號更清晰，話音起止更易判別，麥克風陣列與使用者出聲位置距離相對固定，又避免了環境噪音和語音衰減等影響。

目前已知的無論是 GPT-4o 還是豆包，全雙工打斷體驗都不佳，主要還是誤打斷居多。原本的 ASR 語音識別 - NLP 語義理解 - TTS 語音合成多階段的做法，遲早會被「端到端」取代掉，Transformer 架構能夠並行處理句子中的各個部分，大大提高語義理解的效率，LLM Agent 智慧體也應該充分利用之前對話的上下文資訊，透過構建對話歷史的知識圖譜或記憶網路，在理解使用者打斷意圖時參考之前的話題資訊等。總之，用 LLM 大模型來實現「流式互動」是這一輪語音類產品的共同目標。

另一個大坑，就是基礎硬體的「基本功」沒做到位。

我們來區分下是用藍芽或者內建網路協議等仍舊以手機為中心的「周邊硬體」，還是獨立計算能力不依賴手機以自己為中心的「獨立硬體」，今天我們談論的豆包 AI 耳機屬於前者，智慧音箱屬於後者。

今天我們用大模型創造「獨立 AI 硬體」的話，除非智慧算力能完全跑到本地，不然首先得要做好聯網基本功，AI 硬體在這個時間點首先需要把硬體基本功給做好，你以為我們要討論的都是高大上的 AI，實際上消費者往往還卡在「上一步」呢。AI 硬體在使用者實際使用中的場景往往非常極端。如何在這些極端情況下最佳化 AI 的容錯性，是 AI 硬體開發中的另一個關鍵環節。

特別是在我們討論的下一代的個人穿戴裝置作為 AI 入口，通常沒有螢幕或小螢幕的終端上，聯網功能的實現變得尤為複雜，尤其是當產品需要透過 Wi-Fi 連線時，使用者在每個步驟的錯誤操作反饋都可能影響整體體驗。解決這些問題需要在硬體配置和成本之間做出取捨，並且需要企業在開發過程中積累大量的經驗教訓。

開發過程始終面臨一個關鍵的權衡點——如何在成本和效能之間找到平衡。而且，硬體即便價格便宜，仍然需要物流和一系列的交付流程，這對使用者來說也構成了一定的心智門檻。要跨越這個門檻，對於那些沒有積累的新公司來說，定義和推出一款新的產品，確實是極具挑戰的。開發過程面臨成本與效能的權衡點。硬體即便便宜，物流及交付流程對使用者有心智門檻。對無積累的新公司，定義和推出新產品極具挑戰。

硬體產品的首次交付質量直接決定了未來市場表現和使用者預期的管理。若首次交付時表現不佳，即使後續進行多次迭代，可能也難以徹底挽回使用者對產品的信任。但如果首次交付能達到至少 70 分，企業就有機會透過後續改進來提升使用者體驗。

硬體產品由於其高成本和生產週期的限制，容錯率極低。硬體的幾次錯誤決策就可能導致整個產品的失敗，甚至需要重新考慮是否將產品推向市場。

張鵬：做硬體產品相對軟體可能難了不止十倍，那涉及到AI硬體，可能裡面又有一堆新問題。那這次靈宇宙的思路是怎麼樣的？跟你之前在做的事兒有什麼區別？

最右為顧嘉唯此前推出的社交機器人 Jibo 和繪本閱讀機器人 Luka｜圖片來源：靈宇宙

顧嘉唯：我一直在堅持的一個夢想，互動類的機器人。其實，機器人的核心構件無外乎三種：物理層面的移動（依賴輪或足）、任務的操作執行（依賴手臂和身體）、以及意圖理解後的互動（頭和腦）。最終，這些都歸結到互動本身——讓一個裝置有一個介面，有一個「臉」來與你互動，本質上就是互動的核心所在。

這個路徑上關鍵在於找到一個有效的資料積累方式。

張鵬：創業者應該選擇什麼領域？

顧嘉唯：今天佔據空間互動這一層的資料閉環是競爭的關鍵，資料構建速度是影響未來空間智慧、AI 陪伴軟硬體等諸多領域的最關鍵的因素。創業公司的核心競爭力、護城河都取決於此。

靈宇宙是基於大模型對意圖理解的升維，透過感測器收集 life streaming data 全天候場景資料，實現空間互動，重新定義「萬物有靈」，構建機器人的靈魂，在 Personal AI 和 Ambient AI 結合的領域，透過軟體定義硬體，探索 AI 產品的發展潛力。關係演算法和空間互動，也是我認為通往 Persona AI 必經的路徑。

要實現這一點，核心問題就是資料集的構建。透過垂直人群收集空間互動的資料，就像特斯拉透過大量司機真實駕駛資料構建 FSD（完全自動駕駛）系統一樣。特斯拉的優勢在於不依賴高精度地圖，而我們靈宇宙則試圖透過相似的路徑，為 Personal AI 構建閉環資料集，尤其針對那些最原生的 AI 互動智慧終端使用者。

從策略上來說，如果我還在大廠裡，可能會選擇眼鏡或耳機這樣的超級品類較量，但作為創業者，我的選擇會更加謹慎，一些看似邊緣甚至雞肋的領域，恰恰有足夠的市場空間，能夠保障初創公司真正做到位。越細分的市場，越能解決明確的特定價值，越容易取得成功。

現在市面上大多數通用人形機器人公司還在努力掙扎於 TPF 階段，都沒有真正迎來的 PMF 時刻，但創業那麼多年的經驗告訴我，一旦跨越 PMF 只要是生意必然會面臨複雜競爭格局中如何定位找到自己的 7 Powers 實現可持續發展。

我之前一直在做連線內容和互動的產品，創業選擇做內容型產品的好處其實是，不太會像那些純工具類的產品大多會被巨頭清出局。像監控攝像頭、智慧音箱這類產品，就容易在大公司的平臺生態中被卷得無路可走。但如果產品有足夠深的內容厚度，它就能在一定程度上界定它的受眾範圍，創造出屬於自己的生存空間。所以對於創業公司來說，選擇這些賽道反而更有優勢，因為它不會被輕易取代。

在大模型出現之前，我們談互動和內容的關係時，總覺得互動是輔助的，想靠它來提升內容的體驗，真的挺難的。雖然我們有技術優勢，能創造更好的互動方式，但因為內容生產投入佔的比重大，互動撬動的效果並不好。

不過，現在情況不一樣了。大語言模型及相關技術帶來的 AIGC 技術進步其實在悄悄改變著互動和內容的平衡，讓我們這些深耕互動技術的公司看到了新的機會。

我們堅持「先資料後 AI」的原則，結合我們 Luka 盧卡品牌過往近千萬臺產品在市場上已經收集了百億引數使用者互動行為資料，為後續的模型最佳化打下了堅實的基礎。

張鵬：今天 AI 硬體要去往前走，即使只是在一個相對邊緣的場景中，但如果真的交付了足夠的價值，即使不是行業的「白馬騎士」，至少是為使用者解決問題的存在，而且解決的問題比過去的方式更好了，只要能夠在這些細微的場景中創造價值，創業團隊就可以沿著這條路徑往前走。

那未來在像耳機、眼鏡這種顯然可能會成為某種互動入口的領域，會不會有新的補貼大戰？

顧嘉唯：除非未來出現像當年智慧音箱那樣的激烈競爭，並且所有大廠都把它視為「明牌」，否則很難看到再次出現大規模的補貼大戰。

當時智慧音箱至少被認為是明顯的「明牌」。但如今硬體產品並沒有出現同樣的「明牌」路徑，市場更多樣化了。

另外，補貼的本質是網際網路流量變現的方式。現在的大型模型則採用不同的商業模式，更加註重成本控制。在這種情況下，單純依靠補貼很難產生根基效應的複利。

回頭來看，怎麼定義創業公司創造出獨有的稀缺效能力？我認為關鍵在於找到一個有效的資料積累方式，這些資料來源其實就是我們靈宇宙今天在核心投入的地方，希望能夠透過空間互動來完成更多樣的互動視角的資料閉環，然後來構建一條類似於通往 Robotaxi 路徑過程早期特斯拉 FSD 的「南坡」路徑。同時明確所擅長的、能夠深入理解並持續鑽研的垂直人群的需求，才能來構建一款以人為核心 AI 產品的核心軸線。

今天空間互動的資料閉環建設，尤其是高速建設是競爭的關鍵。只有行業競爭到了這一層面的階段，才有可能還會出現補貼大戰。

推出 ai 耳機位元組真正野心是什麼

推出AI耳機，位元組真正的野心是什麼？

相關文章