爆火的生成式AI，能讓智能音箱起死回生嗎？

智能音箱這類如今幾乎已經被大量消費者遺忘的產品，在此前經歷了2017年、2018年的“瘋狂”之後，早已不再是大多數消費者關注的對象。就在大家以爲智能音箱會曇花一現時，ChatGPT的橫空出世似乎讓智能音箱有了煥發第二春的可能，也給了這個在走下坡路的行業一個新的機遇。那么，智能音箱與如今爆紅的生成式AI能擦出火花嗎？

生成式AI之於智能音箱行業，或許就是久旱逢甘霖。根據相關市場調查數據顯示，2023年第一季度，受產品同質化嚴重和消費者需求下降等因素的疊加影響，國內智能音箱在线上的監測零售量爲157萬台、再次下跌40.6%，而在整個2022年，智能音箱國內全渠道銷量爲2631萬台、同比下降了28%。

爲什么曾經被各大巨頭寄予厚望、甚至被視爲可能是智能家庭入口的智能音箱，會在近年來滑入深淵呢？原因其實只有一個，那就是智能音箱真的不夠智能。

在智能音箱這一概念火熱的2017年，業界曾有關於智能音箱的重心到底應該在“智能”、還是“音質”上的討論。最終，騰訊聽聽、蘋果HomePod等一系列注重音質的產品，用它們的慘烈失敗證明智能音箱的賣點只有可能是智能化。

然而遺憾的是，絕大多數智能音箱的智能化程度只能用“捉襟見肘”來形容，而各大廠商對於ASR（語音識別）、NLP自然語義處理、遠場拾音等人工智能和聲學技術的進步，又實在有些過於樂觀。其實智能音箱從技術層面來說很簡單，它的工作模式就是收集用戶的聲音，然後將音頻發到服務器上、再計算並產出結果，最終將結果發送到智能音箱上變成具體的行爲，比如打开某個應用或是回復用戶的提問。

沒錯，智能音箱本身其實與人工智能並不沾邊，小愛同學、小度、天貓精靈的真身藏在了相應的服務器端上。這一切也導致了決定智能音箱使用體驗的關鍵是遠場拾音技術，也就是在復雜的聲學環境下准確捕捉用戶語音指令的能力，畢竟總不能出現用戶說“講個笑話”，智能音箱聽成“放首歌”了吧。

智能音箱的解決方案，則是使用大規模麥克風陣列來收集聲音，但其中卻有一個痛點一直得不到解決，那就是語音喚醒（keyword spotting）。大家在使用智能音箱時，需要用到諸如“Hi，Siri”、“小愛同學”、“小度小度”這樣的喚醒詞，讓智能音箱知道你在和它說話，這也就意味着智能音箱缺乏主動服務的能力。更爲重要的是，由於技術的限制，智能音箱長期以來只能理解簡單的指令，比如“音量調大一點/調小一點”、“播放某某人的某某歌”等，再復雜一些的語句識別起來往往就很難。

而ChatGPT、文心一言這類生成式AI之於智能音箱的意義，就是前者可以幫助智能音箱理解更加復雜的語句，並提供更加自然的交流。相信使用過微軟Bing Chat、百度文心一言或ChatGPT的朋友應該就知道，在與這類生成式AI對話時，並不需要用諸如“Hi，ChatGPT”這樣的开場白，直接輸入內容即可开始對話進程。

由於生成式AI是在基於大規模語言模型（LLM，Large Language Model）的基礎上，加入了人工標注數據和從人類反饋中進行強化學習技術，再輔以知識圖譜技術，即一種將知識寫成結構化三元組（包含實體、概念和關系）的多關系圖，讓AI得以理解人類指令的含義，並最終從龐大的信息數據庫中選擇內容進行回答。

ChatGPT這類產品相比於Siri、小愛同學最大的變化，就是有了多輪對話的能力。相比Siri幾乎是“魚的記憶”，ChatGPT則可以一直與用戶對話，再加上對於情緒更清晰的感知，讓用戶以爲真的是在與活生生的人對話。對於一個消費級產品而言，用戶顯然並不在乎背後的技術原理有多么高深，而是關注它能否解決問題或是滿足需求。

生成式AI的魅力就在於它的能力上限很高，其中典型的例子就是微軟的Microsoft Copilot，同時它還能在一定程度上滿足用戶的社交需求，如今在海外已有創作者借助ChatGPT，推出了以自己爲模型的“虛擬伴侶”，並收獲了超過1000名用戶。總的來說，將生成式AI與智能音箱結合幾乎能補足後者的短板，使得其在消費級賽道擁有了可堪一用的智能化水平。

事實上，部分智能音箱廠商已經行動起來了。例如今年2月，百度在預熱文心一言時，小度就已宣布將融合文心一言，打造針對智能設備場景的AI模型“小度靈機”；4月天貓精靈接入“鳥鳥分鳥”模型打造的“AI嘴替”，同時宣布接入阿裏巴巴的通義千問。

但需要指出的是，生成式AI並非“萬能靈藥”。就目前來說，一切生成式AI都面臨着一個不可避免的問題，那就是算力資源的稀缺。最近生成式AI天花板GPT-4“變笨”的消息引發了諸多關注，相比於剛剛發布時的狀態，如今GPT-4的文本代碼質量全方位下降已然成爲了用戶的共識。

沒錯，其實不僅是GPT-4，諸如ChatGPT、文心一言等面向公衆的這類產品都出現了類似的情況，用戶量的增加導致了大模型性能的下降。

現在生成式AI領域面臨的核心問題，就是算力資源緊張、無法應對洶湧而來的用戶，而爲了確保用戶體驗，這類產品就只能降低大模型的性能、減少生成內容的時間來給服務器“減負”。相較之下，智能音箱的存量市場規模無疑更加龐大，所以在接入生成式AI後，幾乎不可避免地會遇到類似的問題。

未來很有可能會出現的情況，是智能音箱的智能化水平呈現出一條拋物线，初期用戶體驗會跨越式提升，但隨着用戶規模的不斷增加，智能化表現反而可能會“退化”回數年前的水平。