TechEveryday2026-02-25|中文優先 · 文章化整理
AI治理.安全政策

OpenAI的治理框架:從Model Spec到前沿AI安全 一個產業的自律實驗

當AI系統的能力正以每六個月翻倍的速度成長,治理與安全框架的建立已成為不容回避的議題。OpenAI近日發布的Model Spec,正是這場AI治理馬拉松中最具雄心的嘗試——一份試圖將人類價值觀編碼進機器的公開規則手冊。然而,在自願承諾與強制監管之間,這家ChatGPT製造商正走在一条鋼索上。

【AI治理深度報道】

走進OpenAI位於舊金山的辦公室,你會發現一面巨大的電子布告欄,上面滾動的不是公司公告,而是一份名為「Model Spec」的公開文件。這份文件的野心,是成為AI模型行為的「說明書」——定義什麼是允許的,什麼是不可逾越的紅線,並將這些規則以透明、可審計的方式向公眾開放。

2025年10月更新的Model Spec,引入了「Chain of Command」(指令階層鏈)的概念:來自不同來源的指令——包括OpenAI本身、開發者和用戶——被賦予不同的權限等級,高層級指令可以覆蓋低層級指令。這種設計的目標,是最大化使用者和開發者的控制力,同時保持明確的邊界。

一個治理框架的誕生

Model Spec的起源,可追溯至2024年。當時,OpenAI發布了第一版Model Spec,試圖回應外界對AI系統行為不一致、缺乏透明度的批評。OpenAI執行長Sam Altman當時表示:「我們相信強大的AI系統應該接受嚴格的安全評估。監管對於確保這種實踐被廣泛採用是必要的,我們積極與各國政府探討最佳監管形式。」

在接下來的版本演進中,OpenAI逐步完善了三層治理架構。最上層是「Root」指令——來自Model Spec本身的固定規則,不可被任何訊息覆蓋。中層是「System」指令,由OpenAI提供,可以在系統訊息中傳遞。最底層是「User」和「Guideline」層級,允許使用者和開發者自定義行為,但不得凌駕於安全原則之上。

這種設計的核心理念,是「選擇性預設」(Sensible Defaults):Model Spec包含了在大多數情況下適用的預設值,但同時允許使用者根據具體情境進行調整。OpenAI在說明文件中強調:「我們偏好在盡可能多的地方給予使用者指導層級的指令,但我們也意識到這些預設不會適用於所有使用者和情境。」

前沿AI安全的制度化

Model Spec只是OpenAI安全框架的一部分。另一個關鍵支柱是「Preparedness Framework」——用於識別和緩解前沿AI模型風險的系統性方法。根據這個框架,每個新模型在發布前都必須經過一系列評估,包括「外部紅隊測試」(External Red Teaming)和「能力評估」。

OpenAI的官方說明指出:「如果模型在Preparedness Framework中的風險評分超過『Medium』閾值,我們不會發布該模型,直到我們實施足夠的安全干預措施,將緩解後的評分带回『Medium』水準。」

這種方法的具體實踐,可見於GPT-4o的發布流程。OpenAI表示,超過70位外部專家參與了該模型風險的評估,而這些學習被用於構建針對早期模型弱點的評估基準,以便更好地理解後續模型的風險。

從自願承諾到強制監管

然而,僅靠企業自律是否足夠,已成為業界激烈辯論的焦點。OpenAI在提交給美國OSTP/NSF的AI行動計畫建議書中,倡議建立一個「自願性合作框架」,讓聯邦政府與私營部門在AI安全方面展開合作。

OpenAI建議,這個框架應該由美國商務部監督,並由AI Czar協調,提供一個單一的「前門」供AI公司與聯邦政府互動,協調國家安全和經濟競爭力社區的專業知識。作為交換,參與公司可以獲得监管救濟——免除美國各州提出的781項AI相關法案中可能適用的條款。

這種「自願申報換取监管減負」的模式,引發了兩極化的反應。支持者認為,這種務實的安排可以避免過度碎裂的監管環境,同時保持美國AI產業的競爭力。批評者則指出,自願框架缺乏強制執行力,如果主要AI公司選擇不參与,整個體系將形同虛設。

出口管制與AI擴散的地緣政治

OpenAI的政策建議,也涉及敏感的出口管制議題。該公司支持維持AI擴散規則的三級框架(Tier I/Tier II/Tier III),但建議擴大Tier I國家的範圍,納入承諾「民主AI原則」——即部署AI系統以促進公民更多自由的國家。

OpenAI在政策文件中寫道:「全面出口管制策略不僅應該限制AI技術流向中國,還應該確保美國『赢得擴散』——也就是說,讓盡可能多的世界其他地區使用符合民主價值的AI基礎設施。」

這種將技術擴散與地緣政治掛鉤的論述,凸顯了AI治理的複雜性。當技術既是可以輸出軟實力的工具,也是需要保護的戰略資產時,企業的政策倡議往往與國家安全目標交織在一起。

多元利害關係人的參與

OpenAI的治理實驗,也開始引入更廣泛的社會參與機制。「Democratic Inputs to AI」計畫就是一個案例,嘗試探索民主程序如何影響AI模型的行為決策。Model Spec本身也採用CC0授權,開放給公眾自由使用和改編。

這種透明度的追求,部分是回應外界對AI系統「黑箱」特性的批評。但真正的挑戰在於:不是所有人類價值、偏好和意圖都可以被明確編碼為規則。OpenAI坦承:「許多價值觀是細緻的、情境敏感的和文化依賴的。我們的研究目標是將這些複雜、往往是默會的元素,編碼進AI系統中。」

展望未來,隨著AI模型的能力持續提升,治理框架也必須同步演進。OpenAI已宣布,將在下一代前沿模型的發布前,增加安全測試的時間和强度。這種「在速度與安全之間取得平衡」的藝術,正是AI治理的核心挑戰。

【參考來源】

  • OpenAI:〈Model Spec (2025/10/27)〉,2025年10月27日。
  • OpenAI:〈Our approach to AI safety〉,2025年。
  • OpenAI:〈Safety practices update〉,2025年。
  • OpenAI:〈How we think about safety and alignment〉,2025年。
  • OpenAI:〈Frontier AI regulation: Managing emerging risks to public safety〉,2025年。
  • OpenAI:〈OSTP/NSF RFI Response: AI Action Plan〉,2025年。