籤字畫押之後，AI巨頭們都承諾了些什么？

Meta剛剛公布新一代开源大語言模型Llama 2，之後沒幾天就和OpenAI、微軟、谷歌、亞馬遜等幾家正致力於AI與大模型的業內巨頭一起聚首白宮，而且還共同籤訂了一份《自愿承諾書》（Voluntary Commitments），就當前熱議的AI技術及其开發的安全、透明、以及風險管控等事宜做出“八大承諾”。

《紐約時報》第一時間報道了相關新聞，表示《承諾書》更像是過去半年多來美國監管層對這些巨頭們數次問詢後的一次“成果展示”，落實到執行層面的可能性不大，更多的意義可能在於監管層表達對AI與大模型產業發展的關心，順便表明政府的立場。科技巨頭求監管，此時的輿論與風頭真可說是一時無兩。

1. 企業承諾在發布新系統或大模型前，先對其進行內外兩道安全測試。現在沒有一家企業會說在公布大模型前沒有進行過安全測試，這種測試有時也被叫做“紅隊測試”。因此這個承諾並不新鮮，相關概念也很模糊，因爲都沒有提供有關需要進行何種安全測試或具體負責人的詳細信息。隨後白宮又發表聲明稱大模型的測試“將部分由獨立專家進行”，並重點關注“生物安全和網絡安全等AI風險高發區，及其更廣泛的社會影響”。讓AI巨頭企業公开承諾繼續進行此類測試並讓測試過程更加透明，這的確是一個好想法。此外一些不易察覺的AI風險，例如將AI或大模型用於开發新武器，國家可能是比企業更好的評估人選。

2. 企業承諾在業內，以及與政府、學界和民間交流有關AI與大模型管理風險的信息。與第一條類似，這條承諾也有些模糊。有的企業的確樂意分享自己AI或大模型成果的信息，比如隔三差五的發篇學術論文，或者在自家的官方社交媒體渠道上發布信息。一些企業如OpenAI還發布了專門的文檔，官方稱其爲“系統卡片”，內容就是他們爲使大模型更安全而採取的努力步驟。但凡事無絕對，這些企業有時也會以安全爲由而隱瞞信息。今年三月GPT-4上线時，OpenAI就沒有透露其參數量級。之前GPT-3.5公布的是1750億，因此外界猜測GPT-4應該有100萬億。雖然OpenAI的CEO奧爾特曼在第一時間駁斥這種說法“完全是胡說八道”，但他也沒透露具體的量級究竟有多大。根據這一新的承諾，這些企業是否會被迫公开此類信息？果真如此是否會加速AI與大模型的軍備競賽？或許白宮更在意的是想要與企業間交換信息，不論是否會構成威脅，而非一款大模型究竟有多大的參數量級。

3. 企業承諾在網絡安全和內部防護措施上加大投資，以保護專利以及未公布的模型權重。“模型權重”指的是賦予大模型運行能力的數學指令，保證自身安全沒什么難以理解的。如果是競爭對手企業想要構建類GPT產品那么就必須竊取原版的模型權重，因此這條承諾是符合各家企業既得利益的。之所以有這條承諾是因爲這一問題已經到了業內人盡皆知的地步，舉個例子，之前Meta的LLaMA在公布幾天後就被人將模型權重泄露在4chan等網站上。類似的事情過去有，現在有，以後也還會有，小心駛得萬年船。

4. 企業承諾允許第三方發現和報告其產品系統中的漏洞。以目前的科技水平來說，完美無缺的產品只存在於理論中，一個大模型新品上线後總是用不了多久就被發現有問題，有的是黑客試圖“越獄”，有的則是粉絲想驗證非法功能，但不論哪種都有違企業开發大模型產品的初衷，這種行爲甚至也是逾越道德或法律底线的。前一陣OpenAI啓動一項獎勵計劃，旨在獎勵那些發現ChatGPT缺陷的用戶。或許白宮也是想延續這一精神，至於未來如何發展還有待觀察。

5. 企業承諾开發強大的技術機制，以確保用戶知道哪些內容何時由AI生成。這個想法在目前來看的確很有必要，同時也有很大的操作空間。雖然各家企業都在努力設計工具或機制讓用戶能區分人工與AI，但當人把AIGC冒充爲自己的作品時這才是真正的問題。因此也不難理解三月的GPT-4上线後，最先研究的和最先禁用的都是高校，甚至可能是同一所高校裏，教授們在積極研究，卻禁止學生們隨意使用。

6. 企業承諾公开報告其大模型的功能與局限性，以及可用和不可用領域。與前一條類似，聽起來很美好同時操作空間很大。根據過去多少年來科研企業發展的經驗，很多產品或功能的最終形態都可能遠遠超出最初的設想，那么現在大模型時代已經來臨了，這種情況可能還會再出現不止一次，又有幾家企業真的能堅定不移的恪守承諾呢？

7. 企業承諾優先研究AI和大模型可能帶來的社會風險，包括避免有害的偏見與歧視，以及保護隱私。這種“優先考慮”基本都是模糊承諾，但這一承諾無疑會受到AI道德派的歡迎，這一群體最喜歡也最希望的就是這些AI與科技巨頭們將預防偏見和歧視等已經披露出的問題作爲優先事項，而不是像AI安全派那樣擔心AI或大模型會導致世界末日。有趣的是兩派都認爲對方的想法是無稽之談，而真正研究AI和大模型的巨頭也有自己的想法。

8. 企業承諾开發和部署先進的AI與大模型系統時，優先考慮幫助解決當前社會面臨的問題，如應對氣候變化與疾病治療等。說來難以置信的，在AI與大模型的研究中，一些成果的最終樣子與其出發點可能相差甚遠，比如OpenAI用DOTA2訓練GPT，期間還將“強化學習”的學習模式改爲“基於人類反饋的強化學習”，即現在常說的RLHF。AI與大模型可能幫助我們解決一些問題，但同時也可能導致出現新問題，想要真正切實解決還很漫長。

這八條“籤字畫押”看下來，總體上說還是象徵意義大於實質意義，其中幾條目前已有企業在採取類似的預防措施，而且也沒有什么可行的外部力量來約束他們遵守這些承諾。或許正如前面所說，白宮只是在表明自己的立場與態度，不過這都是合情合理的一步。