AI治理．安全政策

OpenAI的治理框架：從Model Spec到前沿AI安全　一個產業的自律實驗

當AI系統的能力正以每六個月翻倍的速度成長，治理與安全框架的建立已成為不容回避的議題。OpenAI近日發布的Model Spec，正是這場AI治理馬拉松中最具雄心的嘗試——一份試圖將人類價值觀編碼進機器的公開規則手冊。然而，在自願承諾與強制監管之間，這家ChatGPT製造商正走在一条鋼索上。

【AI治理深度報道】

走進OpenAI位於舊金山的辦公室，你會發現一面巨大的電子布告欄，上面滾動的不是公司公告，而是一份名為「Model Spec」的公開文件。這份文件的野心，是成為AI模型行為的「說明書」——定義什麼是允許的，什麼是不可逾越的紅線，並將這些規則以透明、可審計的方式向公眾開放。

2025年10月更新的Model Spec，引入了「Chain of Command」（指令階層鏈）的概念：來自不同來源的指令——包括OpenAI本身、開發者和用戶——被賦予不同的權限等級，高層級指令可以覆蓋低層級指令。這種設計的目標，是最大化使用者和開發者的控制力，同時保持明確的邊界。

一個治理框架的誕生

Model Spec的起源，可追溯至2024年。當時，OpenAI發布了第一版Model Spec，試圖回應外界對AI系統行為不一致、缺乏透明度的批評。OpenAI執行長Sam Altman當時表示：「我們相信強大的AI系統應該接受嚴格的安全評估。監管對於確保這種實踐被廣泛採用是必要的，我們積極與各國政府探討最佳監管形式。」

在接下來的版本演進中，OpenAI逐步完善了三層治理架構。最上層是「Root」指令——來自Model Spec本身的固定規則，不可被任何訊息覆蓋。中層是「System」指令，由OpenAI提供，可以在系統訊息中傳遞。最底層是「User」和「Guideline」層級，允許使用者和開發者自定義行為，但不得凌駕於安全原則之上。

這種設計的核心理念，是「選擇性預設」（Sensible Defaults）：Model Spec包含了在大多數情況下適用的預設值，但同時允許使用者根據具體情境進行調整。OpenAI在說明文件中強調：「我們偏好在盡可能多的地方給予使用者指導層級的指令，但我們也意識到這些預設不會適用於所有使用者和情境。」

前沿AI安全的制度化

Model Spec只是OpenAI安全框架的一部分。另一個關鍵支柱是「Preparedness Framework」——用於識別和緩解前沿AI模型風險的系統性方法。根據這個框架，每個新模型在發布前都必須經過一系列評估，包括「外部紅隊測試」（External Red Teaming）和「能力評估」。

OpenAI的官方說明指出：「如果模型在Preparedness Framework中的風險評分超過『Medium』閾值，我們不會發布該模型，直到我們實施足夠的安全干預措施，將緩解後的評分带回『Medium』水準。」

這種方法的具體實踐，可見於GPT-4o的發布流程。OpenAI表示，超過70位外部專家參與了該模型風險的評估，而這些學習被用於構建針對早期模型弱點的評估基準，以便更好地理解後續模型的風險。

從自願承諾到強制監管

然而，僅靠企業自律是否足夠，已成為業界激烈辯論的焦點。OpenAI在提交給美國OSTP/NSF的AI行動計畫建議書中，倡議建立一個「自願性合作框架」，讓聯邦政府與私營部門在AI安全方面展開合作。

OpenAI建議，這個框架應該由美國商務部監督，並由AI Czar協調，提供一個單一的「前門」供AI公司與聯邦政府互動，協調國家安全和經濟競爭力社區的專業知識。作為交換，參與公司可以獲得监管救濟——免除美國各州提出的781項AI相關法案中可能適用的條款。

這種「自願申報換取监管減負」的模式，引發了兩極化的反應。支持者認為，這種務實的安排可以避免過度碎裂的監管環境，同時保持美國AI產業的競爭力。批評者則指出，自願框架缺乏強制執行力，如果主要AI公司選擇不參与，整個體系將形同虛設。

出口管制與AI擴散的地緣政治

OpenAI的政策建議，也涉及敏感的出口管制議題。該公司支持維持AI擴散規則的三級框架（Tier I/Tier II/Tier III），但建議擴大Tier I國家的範圍，納入承諾「民主AI原則」——即部署AI系統以促進公民更多自由的國家。

OpenAI在政策文件中寫道：「全面出口管制策略不僅應該限制AI技術流向中國，還應該確保美國『赢得擴散』——也就是說，讓盡可能多的世界其他地區使用符合民主價值的AI基礎設施。」

這種將技術擴散與地緣政治掛鉤的論述，凸顯了AI治理的複雜性。當技術既是可以輸出軟實力的工具，也是需要保護的戰略資產時，企業的政策倡議往往與國家安全目標交織在一起。

多元利害關係人的參與

OpenAI的治理實驗，也開始引入更廣泛的社會參與機制。「Democratic Inputs to AI」計畫就是一個案例，嘗試探索民主程序如何影響AI模型的行為決策。Model Spec本身也採用CC0授權，開放給公眾自由使用和改編。

這種透明度的追求，部分是回應外界對AI系統「黑箱」特性的批評。但真正的挑戰在於：不是所有人類價值、偏好和意圖都可以被明確編碼為規則。OpenAI坦承：「許多價值觀是細緻的、情境敏感的和文化依賴的。我們的研究目標是將這些複雜、往往是默會的元素，編碼進AI系統中。」

展望未來，隨著AI模型的能力持續提升，治理框架也必須同步演進。OpenAI已宣布，將在下一代前沿模型的發布前，增加安全測試的時間和强度。這種「在速度與安全之間取得平衡」的藝術，正是AI治理的核心挑戰。

【參考來源】

OpenAI：〈Model Spec (2025/10/27)〉，2025年10月27日。
OpenAI：〈Our approach to AI safety〉，2025年。
OpenAI：〈Safety practices update〉，2025年。
OpenAI：〈How we think about safety and alignment〉，2025年。
OpenAI：〈Frontier AI regulation: Managing emerging risks to public safety〉，2025年。
OpenAI：〈OSTP/NSF RFI Response: AI Action Plan〉，2025年。

OpenAI的治理框架：從Model Spec到前沿AI安全 一個產業的自律實驗

OpenAI的治理框架：從Model Spec到前沿AI安全　一個產業的自律實驗