專家觀點

爆火的生成式AI,能讓智能音箱起死回生嗎?

智能音箱這類如今幾乎已經被大量消費者遺忘的產品,在此前經歷了2017年、2018年的“瘋狂”之後,早已不再是大多數消費者關注的對象。就在大家以爲智能音箱會曇花一現時,ChatGPT的橫空出世似乎讓智能音箱有了煥發第二春的可能,也給了這個在走下坡路的行業一個新的機遇。那么,智能音箱與如今爆紅的生成式AI能擦出火花嗎?

生成式AI之於智能音箱行業,或許就是久旱逢甘霖。根據相關市場調查數據顯示,2023年第一季度,受產品同質化嚴重和消費者需求下降等因素的疊加影響,國內智能音箱在线上的監測零售量爲157萬台、再次下跌40.6%,而在整個2022年,智能音箱國內全渠道銷量爲2631萬台、同比下降了28%。

爲什么曾經被各大巨頭寄予厚望、甚至被視爲可能是智能家庭入口的智能音箱,會在近年來滑入深淵呢?原因其實只有一個,那就是智能音箱真的不夠智能。

在智能音箱這一概念火熱的2017年,業界曾有關於智能音箱的重心到底應該在“智能”、還是“音質”上的討論。最終,騰訊聽聽、蘋果HomePod等一系列注重音質的產品,用它們的慘烈失敗證明智能音箱的賣點只有可能是智能化。

然而遺憾的是,絕大多數智能音箱的智能化程度只能用“捉襟見肘”來形容,而各大廠商對於ASR(語音識別)、NLP自然語義處理、遠場拾音等人工智能和聲學技術的進步,又實在有些過於樂觀。其實智能音箱從技術層面來說很簡單,它的工作模式就是收集用戶的聲音,然後將音頻發到服務器上、再計算並產出結果,最終將結果發送到智能音箱上變成具體的行爲,比如打开某個應用或是回復用戶的提問。

沒錯,智能音箱本身其實與人工智能並不沾邊,小愛同學、小度、天貓精靈的真身藏在了相應的服務器端上。這一切也導致了決定智能音箱使用體驗的關鍵是遠場拾音技術,也就是在復雜的聲學環境下准確捕捉用戶語音指令的能力,畢竟總不能出現用戶說“講個笑話”,智能音箱聽成“放首歌”了吧。

智能音箱的解決方案,則是使用大規模麥克風陣列來收集聲音,但其中卻有一個痛點一直得不到解決,那就是語音喚醒(keyword spotting)。大家在使用智能音箱時,需要用到諸如“Hi,Siri”、“小愛同學”、“小度小度”這樣的喚醒詞,讓智能音箱知道你在和它說話,這也就意味着智能音箱缺乏主動服務的能力。更爲重要的是,由於技術的限制,智能音箱長期以來只能理解簡單的指令,比如“音量調大一點/調小一點”、“播放某某人的某某歌”等,再復雜一些的語句識別起來往往就很難。

而ChatGPT、文心一言這類生成式AI之於智能音箱的意義,就是前者可以幫助智能音箱理解更加復雜的語句,並提供更加自然的交流。相信使用過微軟Bing Chat、百度文心一言或ChatGPT的朋友應該就知道,在與這類生成式AI對話時,並不需要用諸如“Hi,ChatGPT”這樣的开場白,直接輸入內容即可开始對話進程。

由於生成式AI是在基於大規模語言模型(LLM,Large Language Model)的基礎上,加入了人工標注數據和從人類反饋中進行強化學習技術,再輔以知識圖譜技術,即一種將知識寫成結構化三元組(包含實體、概念和關系)的多關系圖,讓AI得以理解人類指令的含義,並最終從龐大的信息數據庫中選擇內容進行回答。

ChatGPT這類產品相比於Siri、小愛同學最大的變化,就是有了多輪對話的能力。相比Siri幾乎是“魚的記憶”,ChatGPT則可以一直與用戶對話,再加上對於情緒更清晰的感知,讓用戶以爲真的是在與活生生的人對話。對於一個消費級產品而言,用戶顯然並不在乎背後的技術原理有多么高深,而是關注它能否解決問題或是滿足需求。

生成式AI的魅力就在於它的能力上限很高,其中典型的例子就是微軟的Microsoft Copilot,同時它還能在一定程度上滿足用戶的社交需求,如今在海外已有創作者借助ChatGPT,推出了以自己爲模型的“虛擬伴侶”,並收獲了超過1000名用戶。總的來說,將生成式AI與智能音箱結合幾乎能補足後者的短板,使得其在消費級賽道擁有了可堪一用的智能化水平。

事實上,部分智能音箱廠商已經行動起來了。例如今年2月,百度在預熱文心一言時,小度就已宣布將融合文心一言,打造針對智能設備場景的AI模型“小度靈機”;4月天貓精靈接入“鳥鳥分鳥”模型打造的“AI嘴替”,同時宣布接入阿裏巴巴的通義千問。

但需要指出的是,生成式AI並非“萬能靈藥”。就目前來說,一切生成式AI都面臨着一個不可避免的問題,那就是算力資源的稀缺。最近生成式AI天花板GPT-4“變笨”的消息引發了諸多關注,相比於剛剛發布時的狀態,如今GPT-4的文本代碼質量全方位下降已然成爲了用戶的共識。

沒錯,其實不僅是GPT-4,諸如ChatGPT、文心一言等面向公衆的這類產品都出現了類似的情況,用戶量的增加導致了大模型性能的下降。

現在生成式AI領域面臨的核心問題,就是算力資源緊張、無法應對洶湧而來的用戶,而爲了確保用戶體驗,這類產品就只能降低大模型的性能、減少生成內容的時間來給服務器“減負”。相較之下,智能音箱的存量市場規模無疑更加龐大,所以在接入生成式AI後,幾乎不可避免地會遇到類似的問題。

未來很有可能會出現的情況,是智能音箱的智能化水平呈現出一條拋物线,初期用戶體驗會跨越式提升,但隨着用戶規模的不斷增加,智能化表現反而可能會“退化”回數年前的水平。


追加內容

本文作者可以追加內容哦 !


鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。


標題:爆火的生成式AI,能讓智能音箱起死回生嗎?

地址:https://www.twetclubs.com/post/9500.html