微軟、OpenAI用上“數據永動機” 合成...

微軟、OpenAI用上“數據永動機” 合成數據是蜜糖還是砒霜？
科創板日報07-22 12:06
約7分鐘
人工智能ETF
0.863
-0.69%
加自選
人工智能AIETF
1.102
-0.9%
加自選
《科創板日報》7月22日訊（編輯鄭遠方）AI大模型對數據的龐大需求之下，AI公司們正在摸索一條獲取數據的“新路”——從零开始自己“造”數據。
微軟、OpenAI、Cohere等公司已經开始測試使用合成數據來訓練AI模型。Cohere首席執行官Aiden Gomez表示，合成數據可以適用於很多訓練場景，只是目前尚未全面推廣。
已有的（通用）數據資源似乎接近效能極限，开發人員認爲，網絡上那些通用數據已不足以推動AI模型的性能發展。Gomez便指出，網絡極爲嘈雜混亂，“它並不能爲你提供你真正想要的數據，網絡無法滿足我們的一切需求。”
之前，ChatGPT、Bard等聊天機器人的訓練數據多來自於互聯網，例如電子書、新聞文章、博客、推特與Reddit的推文帖子、Youtube視頻、Flickr圖片等。但隨着AIGC技術愈發復雜，高質量數據的獲取難度也越來越大。开發AI模型的科技公司們，也因不當使用數據而遭受多方抨擊。
今年5月的一場活動上，OpenAI首席執行官Sam Altman曾被問及，是否擔心監管部門調查ChatGPT可能侵犯用戶隱私的事。Altman對此不置可否，並表示自己“非常有信心，很快所有數據都將是合成數據”。
人類真實數據售價高昂
爲了大幅提高AI模型的性能，提升它們在科學、醫學、商業等領域的水平，AI模型需要的是“獨特且復雜”的數據集。而這類數據或是需要來自科學家、醫生、作家、演員、工程師等“內行人”，或是需要從藥企、銀行、零售商等大型企業獲取專業數據。
這也就帶來了讓AI公司們轉向合成數據的另一層原因——數據太貴了。
且不說那些技術含量極高的制藥、科學數據，光是之前Reddit和推特給出的數據採集要價，都被Gomez“嫌棄”價格太高。
其中，Reddit本月起开始對數據接口使用收費。根據第三方軟件Apollo的开發者Christian Selig透露，Reddit收費標准爲0.24美元/1000次API響應——對於Apollo來說，這大約相當於200萬美元/月开銷。
而根據推特今年3月發布的API政策，企業需要爲抓取推文的API支付每月4萬美元至20萬美元不等的費用，對應可以獲得5000萬至2億條推文。而測算數據顯示，最低一個檔次的套餐只約等於整體推文的0.3%。
在這種情況下，合成數據自然成了一個實惠方案，不僅可以避开這些數據的高昂售價，還能生成一些更復雜的數據來訓練AI。
如何用合成數據訓練？
具體如何用合成數據訓練AI大模型？Gomez舉了一個例子：
在訓練一個高級數學模型時，Cohere可能會使用兩個AI模型進行對話，其中一個扮演數學老師，另一個則充當學生。之後這兩個模型就會就三角函數等數學問題對話，“其實一切都是模型‘想象’出來的”。
如果在這個過程中，模型說錯了什么，人類就會在查看這段對話時作出糾正。
而微軟研究院最近的兩項研究，也表明合成數據可以用來訓練AI模型，這些模型一般比OpenAI的GPT-4、谷歌的PaLM-2更小更簡單。
在其中一篇論文中，GPT-4生成了一個名爲“TinyStories”的短篇故事合成數據集，裏面使用的單詞全部非常簡單，一個四歲兒童都能理解。這一數據集被用來訓練一個簡單的大語言模型，後者能生成流暢且語法正確的故事。
另一篇論文中，AI可以通過合成的Python代碼進行訓練，並在之後的編碼任務中給出相對較好的表現。
蜜糖還是砒霜？
想要合成數據的客戶有了，供應商自然也如雨後春筍般湧現，例如Scale AI、Gretel.ai等初創公司。Gretel.ai由來自美國國安局和中情局的前情報分析師成立，其已與谷歌、匯豐銀行、Riot Games、Illumina等公司合作，用合成數據來擴充現有數據，幫助訓練人工智能模型。
Gretel.ai首席執行官Ali Golshan表示，合成數據的關鍵在於，它既能保護數據集中所有個人的隱私，又能保持數據的統計完整性。
同時，合成數據還可以消除現有數據中的偏差和不平衡。“舉例來說，對衝基金可以研究黑天鵝事件，我們可以創建一百種變體，看看模型能否破解；而對於銀行來說，欺詐事件通常不到總數據的百分之一，Gretel的軟件可以生成成千上萬的欺詐案例，並以此訓練AI模型。”
不過，也有人不看好合成數據。
反對派認爲，並不是所有合成數據都經過精心調試，並能反映或改進真實世界。
來自牛津、劍橋、帝國理工等機構研究人員發現，合成數據的負面影響甚至堪比“毒藥”。如果在訓練時大量使用AI內容，會引發模型崩潰（model collapse），造成不可逆的缺陷。
新一代模型的訓練數據會被上一代模型的生成數據所污染，從而對現實世界的感知產生錯誤理解。隨着時間推移，模型就會忘記真實基礎數據部分。即使在幾乎理想的長期學習狀態下，這個情況也無法避免——研究人員也將此形容爲“AI大模型患上‘癡呆症’”。
image
即便是合成數據從業人員Golshan也坦承，在劣質合成數據上進行訓練可能會阻礙進步。
“網上越來越多的內容都是由AI生成的。隨着時間推移，這確實會導致退化，因爲這些大模型產生的知識都是重復的，沒有任何新的見解。
恭喜！您被選中獲“漲價題材”投資機會升級特權
【免責聲明】本文轉載上述內容出於傳遞更多信息之目的，可能存在不准確性，僅供參考。本文不構成對任何人的投資建議，平安證券不對因使用本資料而導致的損失承擔任何責任。平安證券對本資料擁有最終解釋權。投資有風險，入市需謹慎。
分享文章，和好友們一起看
微信
朋友圈
微博
推薦產品
換一換
人工智能ETF
0.863
-0.69%
加自選
AI人工智能ETF
1.311
-0.53%
加自選
疫苗ETF
0.801
1.65%
加自選
生物科技ETF
0.524
1.35%
加自選
閱讀更多
換一換
0719強勢股脫水 | 爲什么此次微軟AI產品定價這么重要？
07-19
拜登誓言防範AI風險：巨頭們自愿承諾還不夠政府將採取更多行動
技術服務
0.39%
機器視覺
-1.29%
財聯社08:51
華爾街最喜歡AI的巨頭整出新活：用機器來寫研報匯編
人工智能
-1.02%
機器視覺
-1.29%
財聯社03:14
醫保談判不是“價格越低越好”！國家醫保局發文優化規則
醫療衛生
0.84%
疫苗
1.49%
證券時報07-21
以客戶需求爲本，長電科技爲多個應用場景开發一站式解決方案
長電科技
1.5%
電子設備
-1.16%
長電科技官微07-21

追加內容

本文作者可以追加內容哦 !

鄭重聲明：本文版權歸原作者所有，轉載文章僅為傳播信息之目的，不構成任何投資建議，如有侵權行為，請第一時間聯絡我們修改或刪除，多謝。

標題：微軟、OpenAI用上“數據永動機” 合成數據是蜜糖還是砒霜？科創板日報07-

地址：https://www.twetclubs.com/post/14774.html

You may also like

艾美疫苗13價結合肺炎疫苗取得相應生產許可證 已正式提交上市注冊

10月24日主題挖掘：“長壽藥”突傳利好 小米重磅新品定檔

10月10日主題挖掘：高股息再獲政策提振 國君、海通復牌大漲

艾美疫苗迭代無血清狂苗三期臨牀數據達到預設目標 重磅迭代大單品有望重塑市場格局

貝殼的野心

離岸人民幣又見破7！背後有哪些原因？未來走勢如何？

本周熱門

艾美疫苗13價結合肺炎疫苗取得相應生產許可證已正式提交上市注冊

10月24日主題挖掘：“長壽藥”突傳利好小米重磅新品定檔

10月10日主題挖掘：高股息再獲政策提振國君、海通復牌大漲

艾美疫苗迭代無血清狂苗三期臨牀數據達到預設目標重磅迭代大單品有望重塑市場格局