Good Luck To You!

手机扫一扫

大模型重塑智慧硬體!人手一個智慧助手的時代來了?

鳳凰科技 2024-11-02 01:35:56 5

作者 | 徐豫

編輯 | 漠影

在生成式AI浪潮的影響下,智慧硬體開始出現全新的人機互動體驗。

AI智慧助手更有針對性地實時解答你的“十萬個為什麼”;AI卡片錄音機能幫你實時轉寫會議內容,還隨手就羅列好了會議總結、要點分析和待辦事項;AR眼鏡戴上後就能看到文字、圖片、影片中的實時多語言字幕;智慧門鎖會根據來訪人士定製主人的聲音,模仿你的聲音取快遞、拿外賣,或者改變聲音語調以恐嚇無關逗留人士;毛絨小熊真的成為孩子的知心朋友,可以一起聊聊煩惱、疑惑和心事……

可以預見,更智慧化的多模態大模型賦予了智慧硬體新的生命

戴在臉上的影院!雷鳥Air 3再破AR眼鏡價格下限,1699元開售

就在上週六,RTE 2024第十屆實時網際網路大會IoT分論壇圓滿結束。多位AI智慧硬體賽道的資深人士齊聚一堂,共同探討如何讓“智慧硬體產品們”迎頭趕上AI的好時代。聲網IoT行業負責人吳昌儒、曠視增值業務部負責人史澤鴻,海馬爸比聯合創始人譚國豪、佐臻科技技術經理徐偉恩、小米Xiaomi Vela開源負責人杜超、蓮偶科技軟體部總裁楊旺分享了他們在打通AI與智慧硬體屏障方面的實戰經驗

一、AI驅動多模態互動,人機互動更自然

在傳統的硬體裝置中,人機互動大多透過按鍵、觸控式螢幕等圖形使用者介面(GUI)來完成。但隨著AI技術的引入,尤其是對話使用者介面(CUI)的崛起,使用者可以透過語音、視覺、手勢等多種方式與裝置進行互動,帶來了更加自然、直觀的互動體驗

“AI驅動的智慧硬體不再單純依賴固定的功能按鈕或選單,而是透過對使用者意圖的理解,圍繞使用者想要完成的任務進行設計。”聲網IoT行業負責人吳昌儒舉例說道,智慧家居中,使用者僅用一句話便可觸發多個裝置的聯動,說出“我要看電影”,AI系統隨之做出自動調節燈光、開啟電視、調整空調溫度等操作。這種基於任務導向的設計,讓使用者體驗更為絲滑和智慧,大幅減少了手動操作的繁瑣。

住著一個AI Agent的智慧硬體不用再孤立工作,而是能夠與其他智慧硬體之間形成互聯,彼此協作。也就是說,每個裝置中的AI Agent都能獨立執行特定任務,同時也能根據需求與其他AI Agent協作,整體上是一個複雜且靈活的智慧系統。

現場,其他與會嘉賓也圍繞各自產品或業務在AI方面的落地各抒己見。

長期以來,AI與AR的結合都是智慧眼鏡的理想答案。對於聽音樂、拍影片、翻譯等需求,不少市面上在售的AR眼鏡都基本能滿足,佐臻科技則為AR眼鏡找到了更多個性化的應用場景。

其最新款的AR眼鏡不僅適用於跌倒檢測、呼吸監測等看護場景,還可以滿足AI或XR多人混合實時互動算繪場景的需求。也許在不久的將來,只要一副AR眼鏡,人們就能遠端觀展、跨國雲旅遊、多語言同聲傳譯、實時共享影片、異地協同檢視雲端檔案和3D模型。

戴在臉上的影院!雷鳥Air 3再破AR眼鏡價格下限,1699元開售

按照徐偉恩的設想,裝備了AI引擎的AR眼鏡未來將即時提供更多個性化的反饋。舉個例子,你佩戴著AI眼鏡,剛好路過了一輛停在路邊的車,你多看了幾眼這輛車的Logo,AI眼鏡會猜到你可能對這個汽車品牌感興趣,隨之提供相關的資訊。值得一提的是,這種呈現資訊的方式是私人化的,可以降低人們對資訊共享的顧慮。

在徐偉恩看來,聲網的語音互動技術充當了AI智慧硬體實時人機互動的關鍵神經元。而AI智慧硬體只有真正實現隨時隨地呼叫資料、與人互動、與環境互動後,才能與真實生活串聯起來。

當底層的語音技術還較為稚嫩時,人們很難想象手上一枚小小的戒指,也能將AIoT的風吹到直播出海這一領域。

蓮偶科技最新的空間戒指TOALL L-Ring 2透過多模態大模型落地了錄音轉寫、AI對話、同聲傳譯等功能,有助於人們在直播、講課件、播放PPT、看電視以及駕駛過程中儘可能解放雙手。未來,外貿主播在直播過程中,戴上它“揮揮手”就可以完成口型影片合成、情緒模擬、聲紋模擬、語音合成等,從而同步、同時生成多語種的直播間。

戴在臉上的影院!雷鳥Air 3再破AR眼鏡價格下限,1699元開售

水準較高、穩定可靠的實時AI語音互動技術,可謂是AIoT的強心劑。AI智慧硬體若能及時語音反饋危險情況,在關鍵時刻或許能“救命”。

基於高精度的資料訓練,海馬爸比的嬰兒看護機可以實時監測嬰兒的睡眠情況和哭聲判斷嬰兒是否“遮臉”,並針對可能窒息的情況做出提醒。海馬爸比聯合創始人譚國豪告訴智東西,有了AIoT智慧硬體技術的加持,新一代的嬰兒看護器對嬰兒哭聲、狀態的識別更敏感,可以及時發現吐奶等其他可能引發窒息的情況現在,AI智慧硬體或許比新手爸媽更能聽懂嬰言嬰語。

戴在臉上的影院!雷鳥Air 3再破AR眼鏡價格下限,1699元開售

海馬爸比下一步計劃將這些AI智慧硬體融入個性化育兒教育、最佳化睡眠的嬰兒房環境、互動式講故事、協作式育兒支援等場景,為每個有娃家庭安排一個工作經驗“無上限”、具備專業知識的“智慧保姆”。

譚國豪稱,聲網的AI x IoT智慧硬體解決方案可以有效解決“自動化場景但被動化輸出”的AI技術應用困境,推動了智慧硬體從工具轉向服務。在他看來,AIoT中的AI智慧硬體不應是被動地監測和響應,而是生成有意義的內容,並與使用者展開有效互動。

戴在臉上的影院!雷鳥Air 3再破AR眼鏡價格下限,1699元開售

小米則選擇用一個面向輕量AI智慧硬體的系統“Xiaomi Vela”,來串聯起不同生活場景中的智慧硬體。將來藉助該系統,小米的智慧手錶、智慧手機、智慧平板和智慧電視等硬體可以在其AIoT網路中實現聯動

曠視科技的AI生產力平臺Brain++已實現AI視覺演算法的快速量產,並將其與智慧門鎖、寵物智慧用品、養老機器人、體育及訓練等場景相結合。

其中,在寵物智慧用品方面,Brain++可以提供諸如寵物檢測、貓臉識別、貓砂檢測和寵物Vlog等功能。在智慧門鎖方面,其可以實現生物特徵識別、人員分析、快遞和外賣提醒、兒童和寵物離家、鄰居隱私保護、AOV和時光濃縮等功能。

戴在臉上的影院!雷鳥Air 3再破AR眼鏡價格下限,1699元開售

二、秒級人機對話,生成式AI盤活IoT生態

相較於觸控、空間手勢等人機互動方式,語音互動的技術和形態更成熟,上手難度也更低,在AI時代仍具有獨特的發展前景。吳昌儒提出多模態互動、對話式互動、大模型三者共同構成了AI Agent(智慧體)

同時,語音互動技術作為AI智慧硬體的底層技術之一,其即時性、準確性水平高低,在很大程度上影響著使用者的人機互動體驗。從“喂,Siri”,到紅極一時的智慧音箱、故事機,再到當前快速迭代的多模態大模型,人機語音互動的體驗正在不斷最佳化。

吳昌儒認為,實時、準確、跨平臺是AI Agent真正能夠引入智慧硬體的關鍵,聲網AI x IoT智慧硬體方案應運而生。該方案能夠在低功耗、低算力晶片上快速實現大模型的接入,具備低延時實時互動、低成本靈活適配的特性,透過豐富的功能在智慧硬體場景中構建真實、自然的 AI 語音互動體驗。

例如其對互動延遲進行最佳化,語音互動延時低至1s內;支援多模態 AI 語義識別和理解;支援 AI降噪,保證清晰的語音互動;支援小包體、低記憶體、低功耗;適配超70種主流、高價效比的晶片等,幫助開發者與企業快速構建適配自身硬體的 AI 實時語音對話服務。

戴在臉上的影院!雷鳥Air 3再破AR眼鏡價格下限,1699元開售

聲網AI x IoT智慧硬體解決方案進一步最佳化了端到端互動體驗,實現了人與裝置之間基於大模型(LLM)的毫秒級互動體驗,並且在80%丟包情況,即網路較差的環境下,仍能做到音訊通話流暢

為了讓整個整合更加簡單,聲網還提供了模組化的元件。企業無需額外整合STT、TTS這些模組化的元件,就可以達到音訊的端到端對話目的。

除此之外要讓AI聽得懂,收集的資訊更有效,AI降噪演算法和VAD控制是非常重要的一環。為此,聲網自研了AI降噪演算法,可以有效抑制鍵盤、腳步、雜音、嘯叫等超100種常見噪聲,同時為了改善駕駛、商場等場景的收聲效果,也針對性地最佳化了演算法。

在流暢和清晰的基礎上,聲網還追求語音對話過程中自然的交流感。其AI x IoT智慧硬體方案支援AI-VAD技術,具有較高的語義理解能力,可以隨時打斷說話,模擬了人類對話時的真實反應。

除了推出內嵌多模態大模型的AI原生裝置,AI智慧硬體廠商還可以透過一套AIoT智慧硬體解決方案和系統,複用現有的IoT資源,提供更進階的人機互動體驗。對此,聲網最新的AI x IoT智慧硬體方案也能在相容性和商業化落地上提供支援。

該方案適配超70種主流、高價效比的晶片或模組,包括展銳Cat.1系列晶片、樂鑫ESP32-S2/S3、BK7256、BK7258、傑理AC7916、博流BL808等RTOS晶片,以及高通、聯發科、君正、Sigmastar、全志、海思、Mstar等Linux晶片。