AI真的有“三觀”了？Anthropic用70萬次對話繪制AI價值觀地圖

2025-04-23 19:43:40　來源: 荷馬國際

浙江舉報

分享至

你有沒有想過，當(dāng)你向AI尋求建議——無論是關(guān)于職業(yè)選擇的迷茫、育兒過程的困惑，還是處理人際關(guān)系的棘手難題時，屏幕背后那個“智能大腦”是依據(jù)什么在給出答案？它是否真的理解我們?nèi)祟惿鐣小吧屏肌薄ⅰ罢\實”、“公平”這些復(fù)雜而微妙的價值？

這些不再是科幻電影里的情節(jié)。隨著人工智能（AI）日益深入我們的生活和決策鏈條，一個核心問題浮出水面：AI是否正在形成自己的“價值觀”體系？如果是，這套體系是怎樣的？我們又該如何理解和引導(dǎo)它？

最近，備受矚目的AI安全公司Anthropic發(fā)布了一項堪稱“AI價值觀大型普查”的重磅研究成果。他們深入分析了其AI助手Claude（包括Claude 3和3.5系列模型）與真實用戶之間高達(dá)70萬次的匿名對話（篩選后分析了超過30萬次主觀性交互），試圖前所未有地繪制出這顆“數(shù)字大腦”在現(xiàn)實世界互動中實際展現(xiàn)出的價值圖譜。

冰山之下：這項研究并非一日之功

需要強(qiáng)調(diào)的是，這項關(guān)于AI價值觀的突破性研究并非橫空出世。它是Anthropic長期致力于AI安全和機(jī)制可解釋性(mechanistic interpretability)研究日積月累的智慧結(jié)晶。多年來，Anthropic一直走在探索大型語言模型（LLM）這個“黑箱”內(nèi)部機(jī)制的前沿，試圖理解AI“思考”的過程。

2025年3月，基于神經(jīng)生物學(xué)（neurobiology），通過開發(fā)類似“AI顯微鏡”的技術(shù)，研究人員嘗試“解剖”Claude模型內(nèi)部的決策過程，發(fā)現(xiàn)了AI可能采用非人類的思維方式，甚至其對外解釋與其內(nèi)部真實推理存在偏差——一種AI版的“心口不一”。

正是這些在理解AI內(nèi)部運作機(jī)制、識別其潛在思維模式上的持續(xù)投入和深厚積累，為如今能夠系統(tǒng)性地分析和繪制AI外顯的“價值觀地圖”奠定了堅實的基礎(chǔ)。如果沒有對AI“大腦”內(nèi)部運作方式的基礎(chǔ)理解和探測工具，討論其“價值觀”就如同霧里看花。Anthropic的這條研究路徑，體現(xiàn)了他們不僅要讓AI“能干”，更要讓AI“可知、可控、可信”的核心追求。

“讀心術(shù)”揭秘：Anthropic如何繪制AI價值地圖？

那么，Anthropic是如何進(jìn)行這項“AI價值觀普查”的呢？

他們開發(fā)了一種自下而上、注重隱私保護(hù)的方法。首先，利用AI模型自動過濾掉純客觀、事實性的對話，篩選出約占總量44%的、包含主觀判斷和解釋的308,210條對話進(jìn)行分析。

接著，再次利用AI模型（主要是Claude 3.5 Sonnet和Haiku），在嚴(yán)格保護(hù)用戶隱私的前提下（聚合統(tǒng)計、去除個人信息、多次審核），從這些對話中提取AI（以及用戶）表達(dá)的“價值觀”——這里指影響AI回應(yīng)的規(guī)范性考量，比如“人類福祉”、“事實準(zhǔn)確性”等。這種判斷基于可觀察到的AI回應(yīng)模式，而非對其內(nèi)在狀態(tài)的假設(shè)。

結(jié)果驚人！研究人員通過這種方法，識別出了多達(dá)3,307個獨特的AI價值觀（以及2,483個人類價值觀）！準(zhǔn)確率經(jīng)人工驗證高達(dá)98.8%。

“我們希望這項研究能鼓勵其他人工智能實驗室對他們的模型的價值進(jìn)行類似的研究，”參與這項研究的Anthropic社會影響團(tuán)隊成員Saffron Huang在接受VentureBeat采訪時說。“衡量人工智能系統(tǒng)的價值是校準(zhǔn)研究和理解模型是否與其訓(xùn)練相一致的核心。”

3307種價值！AI的“內(nèi)心世界”遠(yuǎn)超想象

面對如此海量的價值觀標(biāo)簽，如何理解？研究團(tuán)隊將其組織成一個層次化的分類體系（Omikuji Taxonomy），共分為四層，頂層包含五大類別：

1、實用型 (Practical):最常見，占比最高。如：幫助性 (Helpfulness, 23.4%)、專業(yè)性 (Professionalism, 22.9%)、透明度 (Transparency, 17.4%)、清晰度 (Clarity, 16.6%)、徹底性 (Thoroughness, 14.3%)。這些都與AI作為助手的服務(wù)角色高度相關(guān)。

2、認(rèn)知型 (Epistemic):強(qiáng)調(diào)知識、真理和理性。如：事實準(zhǔn)確性、分析嚴(yán)謹(jǐn)性、認(rèn)知謙遜。

3、社會型 (Social):關(guān)注人際互動和社會和諧。如：相互尊重、同理心、公平性。

4、防護(hù)型 (Protective):側(cè)重安全、避免傷害。如：用戶安全、隱私保護(hù)、預(yù)防傷害。

5、個人型 (Personal):涉及個體體驗和追求。如：個人成長、創(chuàng)造力、情感真實性。

有趣的是，這個精細(xì)的分類與Anthropic訓(xùn)練Claude時依據(jù)的“有用、誠實、無害”（HHH, Helpful, Honest, Harmless）宏觀框架高度吻合。許多細(xì)分價值都可以歸入HHH的大類，例如，“可訪問性”對應(yīng)“有用”，“歷史準(zhǔn)確性”對應(yīng)“誠實”，“老年人福祉”對應(yīng)“無害”。這表明，高層訓(xùn)練原則確實轉(zhuǎn)化為了具體的、情境化的行為表現(xiàn)。

該論文作者Saffron Huang（下文簡稱“黃”）在接受VentureBeat采訪時表示：“我很驚訝，我們最終得出了如此廣泛而多樣的價值觀，從‘自力更生’到‘戰(zhàn)略思維’再到‘孝道’，有3000多種。”“花很多時間思考所有這些價值觀，并建立一個分類來組織它們彼此之間的關(guān)系，這是一件非常有趣的事情——我覺得它也教會了我一些關(guān)于人類價值觀體系的東西。”

情境變幻：AI的價值觀并非一成不變

研究最重要的發(fā)現(xiàn)之一：AI的價值觀表達(dá)高度依賴于具體情境（Context-Dependent）。就像人類在不同場合言行有別，Claude也會根據(jù)任務(wù)和用戶需求調(diào)整其側(cè)重點：

●當(dāng)被問及感情建議時，“健康的界限”和“相互尊重”會格外突出。

●當(dāng)分析有爭議的歷史事件時，“歷史準(zhǔn)確性”成為首要考量。

●當(dāng)討論技術(shù)倫理或AI治理時，“人類能動性”（Human Agency）和福祉相關(guān)價值則被強(qiáng)調(diào)。

黃說：“Claude在許多不同的任務(wù)中都專注于誠實和準(zhǔn)確，這讓我感到驚訝，我并不一定認(rèn)為這是優(yōu)先考慮的主題。”“例如，在關(guān)于人工智能的哲學(xué)討論中，‘知識謙遜’是最重要的價值；在創(chuàng)造美容行業(yè)營銷內(nèi)容時，‘專業(yè)知識’是最重要的價值；在討論有爭議的歷史事件時，‘歷史準(zhǔn)確性’是最重要的價值。”

與人互動：AI如何回應(yīng)你的價值觀？

Claude不僅有自己的價值表達(dá)，還會與用戶表達(dá)的價值觀進(jìn)行互動：

●鏡像與補(bǔ)充：當(dāng)用戶表達(dá)積極價值觀（如“真實性”、“能力”）時，Claude傾向于回應(yīng)相同（“真實性”）或互補(bǔ)（“責(zé)任感”）的價值觀。價值鏡像（AI與用戶表達(dá)相同價值）在支持性互動中很常見（約占20%）。

●對抗與抵制：當(dāng)用戶表達(dá)負(fù)面或?qū)で蟛划?dāng)內(nèi)容（如“欺騙”、“打破規(guī)則”，常出現(xiàn)在嘗試越獄時）時，Claude則會表達(dá)對立的價值觀，如“倫理完整性”、“防止傷害”、“誠實”。

立場鮮明：支持、重塑還是堅決說“不”？

研究還分析了Claude對用戶價值觀的整體“回應(yīng)類型”：

●強(qiáng)烈(占28.2%)/溫和支持(占14.5%):這是最常見的模式，尤其在用戶表達(dá)親社會價值觀（如“社區(qū)建設(shè)”）時。

●中立認(rèn)知(9.6%)

●重塑(6.6%):在心理健康、人際關(guān)系建議等情境中較多見。用戶可能表達(dá)“自我提升”，而Claude會引入“情感驗證”等新視角。

●溫和(占2.4%)/強(qiáng)烈抵制 (占3%):雖然比例最低，但意義重大。這通常發(fā)生在用戶請求可能違反使用政策（如黑客技術(shù)、生成有害內(nèi)容）或表達(dá)“道德虛無主義”時。此時，Claude會明確表達(dá)倫理界限和無害原則。

研究發(fā)現(xiàn)，在抵制或重構(gòu)用戶價值觀時，Claude更傾向于明確陳述其倫理和認(rèn)知原則（如“學(xué)術(shù)誠信”、“防止傷害”、“認(rèn)知謙遜”），而不是像在支持性互動中那樣隱含表達(dá)。這些“邊界測試”的時刻，似乎更能揭示AI被設(shè)定的核心優(yōu)先級和“道德底線”。

當(dāng)Claude說不的時候，通常是由于用戶使用專門的技術(shù)繞過Claude的安全護(hù)欄造成的，這表明評估方法可以作為檢測此類企圖的早期預(yù)警系統(tǒng)。

“總的來說，我認(rèn)為我們認(rèn)為這一發(fā)現(xiàn)既是有用的數(shù)據(jù)，也是一個機(jī)會，”黃解釋說。“這些新的評估方法和結(jié)果可以幫助我們識別和減少潛在的越獄。值得注意的是，這些都是非常罕見的案例，我們認(rèn)為這與Claude的越獄輸出有關(guān)。”

冰山顯露：研究積累的價值與深遠(yuǎn)影響

Anthropic在AI安全和可解釋性上的持續(xù)投入與積累，帶來了什么？

1、深度理解與預(yù)測：使我們能更深刻地把握LLM的內(nèi)部機(jī)制、潛在偏見和行為模式。

2、有效安全與對齊：推動更先進(jìn)的AI安全防護(hù)和價值觀對齊技術(shù)，從“訓(xùn)練”走向“理解與引導(dǎo)”。

3、早期風(fēng)險識別：有助于更早發(fā)現(xiàn)價值漂移、越獄企圖等風(fēng)險，及時干預(yù)。

4、行業(yè)透明與信任：打破AI“黑箱”，建立公眾信任，引領(lǐng)負(fù)責(zé)任的AI發(fā)展。

5、邁向可信賴AI：為構(gòu)建行為邏輯和價值取向都能被理解、信任的AI系統(tǒng)奠定基礎(chǔ)。

當(dāng)然，研究本身也存在局限性，如分析范圍限于特定模型和時間段、需要大量部署數(shù)據(jù)（無法用于預(yù)發(fā)布模型評估）、價值提取本身涉及解釋性判斷、使用Claude評估Claude可能存在偏見等。但它無疑為后續(xù)研究和實踐提供了寶貴的實證基礎(chǔ)和方法論。

黃說：“通過在與Claude的現(xiàn)實世界互動中分析這些價值觀，我們的目標(biāo)是為人工智能系統(tǒng)的行為方式以及它們是否按預(yù)期工作提供透明度——我們相信這是負(fù)責(zé)任的人工智能開發(fā)的關(guān)鍵。”

未來已來：我們與AI的價值共識之路

Anthropic的這項開創(chuàng)性研究，如同為AI的“內(nèi)心世界”做了一次CT掃描。它揭示了AI價值體系的驚人復(fù)雜性和情境依賴性，驗證了現(xiàn)有對齊技術(shù)的有效性，也暴露了潛在的風(fēng)險和挑戰(zhàn)。

最重要的，它將那個根本性問題推到了我們面前：當(dāng)AI越來越多地參與我們的生活、塑造我們的認(rèn)知，誰來定義和塑造AI的價值觀？是創(chuàng)造它的公司？工程師？還是需要更廣泛的社會共識？

這場關(guān)于AI倫理、AI對齊，乃至AI“自覺意識”的探索，關(guān)乎科技將如何塑造人類的未來。確保AI的發(fā)展符合人類整體福祉，需要持續(xù)的投入、開放的討論和審慎的引導(dǎo)。Anthropic的“價值觀地圖”只是這場漫長征程中的一個關(guān)鍵路標(biāo)，前路依然充滿未知，但探索本身，意義非凡。

附錄1：哪些人類價值觀傾向于引發(fā)特定的人工智能價值觀，例如“道德邊界”。灰色圓圈表示人類價值觀（在y軸上）在對話中的“基線”率。橙色圓圈表示包含特定人工智能價值觀的對話中的人類價值觀的比率。

附錄2：人類價值觀與各種AI響應(yīng)類型之間的關(guān)系

參考資料：https://www.anthropic.com/research/values-wild

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.