美國政府與科技巨頭達成協議:前沿AI模型發布前須經國家安全審查
關鍵詞: AI模型 美國政府 審查協議 安全風險 預審查機制
當地時間5月5日,美國商務部下屬的人工智能標準與創新中心(CAISI)宣布,已與谷歌DeepMind、微軟以及埃隆·馬斯克旗下的xAI達成協議,這三家科技巨頭將在新一代人工智能模型正式公開發布前,提前向美國政府開放模型權限,以便開展國家安全風險審查。
根據CAISI發布的聲明,新協議允許該中心在人工智能模型投入應用前開展評估,并通過專項研究研判模型能力及潛在安全風險。協議核心條款要求實驗室在模型公開發布前,向CAISI開放完整版本,部分測試對象甚至是尚未命名的內部迭代版本。

CAISI主任克里斯·福爾在聲明中明確表示:“獨立且嚴謹的測量科學對于理解前沿人工智能及其國家安全影響至關重要。”他進一步指出,“這些擴大的行業合作幫助我們在關鍵時刻擴大公共利益方面的工作。”
值得注意的是,此次合作舉措是在2024年拜登政府與OpenAI、Anthropic達成相關協議的基礎上進一步擴展而來。加上此次新簽約的三家公司,美國五大主流AI實驗室——OpenAI、Anthropic、谷歌DeepMind、微軟和xAI——已全部納入同一套預發布審查框架。
作為美國政府人工智能模型測試的核心機構,CAISI透露目前已完成40余次模型評估,其中涵蓋多款尚未向公眾開放的尖端AI模型。測試場景不僅包括常規版本,也包括實驗室主動提供的“減配安全護欄”版本——目的是探測模型在約束松動時的行為邊界。
該機構表示,人工智能企業開發者常會提交移除安全防護機制的模型版本,供該中心深入排查國家安全層面的潛在風險。部分測試甚至轉入機密環境進行,以確保評估的全面性和安全性。
微軟方面表示,公司將與美國政府科學家合作,以更深入的測試方式觀察AI系統在極端情境下是否出現預期外行為,雙方也將共同建立測試數據集與驗證流程,強化模型安全性。微軟先前也曾與英國AI安全研究機構簽署類似合作協議。
據CNBC報道,除CAISI周二的聲明外,白宮一直在考慮成立一個新的AI工作組,該工作組將探索潛在的監督程序,包括在模型向公眾發布之前對其進行審查的計劃。一位知情人士透露,該工作組將匯聚多位科技公司高管和政府官員,由于細節屬于機密,該人士要求匿名。該工作組可能會通過行政命令成立。
不過,白宮表示,有關可能發布的行政命令的討論純屬猜測,任何政策聲明都將直接來自唐納德·特朗普總統。這一安排也兌現了特朗普政府于2025年7月提出的與科技企業合作審查AI“國家安全風險”的政策承諾。
近期,美國政府對高階AI模型可能帶來的安全威脅明顯升溫,尤其Anthropic日前推出新一代AI模型“Mythos”后,其大幅提升黑客攻擊與自動化滲透能力,引發美國政府與企業界高度關注。
近幾周,包括Anthropic公司Mythos在內的先進人工智能系統研發成果在全球引發熱議,美國政府官員及美國企業界普遍擔憂,這類模型會極大助長黑客的攻擊能力。據Anthropic公司稱,Mythos擅長識別軟件中的弱點和安全漏洞,因此該公司決定將其推廣范圍限制在部分公司,作為一項名為“Glasswing項目”的新網絡安全計劃的一部分。
Anthropic公司首席執行官達里奧·阿莫迪在Mythos項目宣布啟動幾天后,便在白宮與特朗普政府高級官員會面,討論了該項目。
值得一提的是,此前美國國防部已將Anthropic公司列為供應鏈風險企業。美國國防部上周宣布,已與七家人工智能企業達成合作協議,將這些企業的先進AI技術部署至國防部涉密網絡,意在擴充服務軍方的人工智能服務商隊伍。然而,此次國防部合作名單并未納入Anthropic公司。該公司正因軍方對其AI工具的使用權限與安全約束問題,和美國國防部陷入糾紛。
CAISI表示,這些協議支持信息共享,推動自愿產品改進,并確保政府對人工智能能力和國際人工智能競爭狀況的清晰理解。為了全面評估國家安全相關能力和風險,開發者經常向CAISI提供減少或取消保障措施的模型。
行業觀察人士指出,這一系列協議雖然被表述為“自愿合作”,但實際上已經形成了事實上的強制性預審查機制。