99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AI真的有“三觀”了?Anthropic用70萬次對話繪制AI價值觀地圖

0
分享至

你有沒有想過,當(dāng)你向AI尋求建議——無論是關(guān)于職業(yè)選擇的迷茫、育兒過程的困惑,還是處理人際關(guān)系的棘手難題時,屏幕背后那個“智能大腦”是依據(jù)什么在給出答案?它是否真的理解我們?nèi)祟惿鐣小吧屏肌薄ⅰ罢\實”、“公平”這些復(fù)雜而微妙的價值?

這些不再是科幻電影里的情節(jié)。隨著人工智能(AI)日益深入我們的生活和決策鏈條,一個核心問題浮出水面:AI是否正在形成自己的“價值觀”體系?如果是,這套體系是怎樣的?我們又該如何理解和引導(dǎo)它?





最近,備受矚目的AI安全公司Anthropic發(fā)布了一項堪稱“AI價值觀大型普查”的重磅研究成果。他們深入分析了其AI助手Claude(包括Claude 3和3.5系列模型)與真實用戶之間高達(dá)70萬次的匿名對話(篩選后分析了超過30萬次主觀性交互),試圖前所未有地繪制出這顆“數(shù)字大腦”在現(xiàn)實世界互動中實際展現(xiàn)出的價值圖譜。

冰山之下:這項研究并非一日之功

需要強(qiáng)調(diào)的是,這項關(guān)于AI價值觀的突破性研究并非橫空出世。它是Anthropic長期致力于AI安全和機(jī)制可解釋性(mechanistic interpretability)研究日積月累的智慧結(jié)晶。多年來,Anthropic一直走在探索大型語言模型(LLM)這個“黑箱”內(nèi)部機(jī)制的前沿,試圖理解AI“思考”的過程。

2025年3月,基于神經(jīng)生物學(xué)(neurobiology),通過開發(fā)類似“AI顯微鏡”的技術(shù),研究人員嘗試“解剖”Claude模型內(nèi)部的決策過程,發(fā)現(xiàn)了AI可能采用非人類的思維方式,甚至其對外解釋與其內(nèi)部真實推理存在偏差——一種AI版的“心口不一”。

正是這些在理解AI內(nèi)部運作機(jī)制、識別其潛在思維模式上的持續(xù)投入和深厚積累,為如今能夠系統(tǒng)性地分析和繪制AI外顯的“價值觀地圖”奠定了堅實的基礎(chǔ)。如果沒有對AI“大腦”內(nèi)部運作方式的基礎(chǔ)理解和探測工具,討論其“價值觀”就如同霧里看花。Anthropic的這條研究路徑,體現(xiàn)了他們不僅要讓AI“能干”,更要讓AI“可知、可控、可信”的核心追求。


“讀心術(shù)”揭秘:Anthropic如何繪制AI價值地圖?

那么,Anthropic是如何進(jìn)行這項“AI價值觀普查”的呢?

他們開發(fā)了一種自下而上、注重隱私保護(hù)的方法。首先,利用AI模型自動過濾掉純客觀、事實性的對話,篩選出約占總量44%的、包含主觀判斷和解釋的308,210條對話進(jìn)行分析。

接著,再次利用AI模型(主要是Claude 3.5 Sonnet和Haiku),在嚴(yán)格保護(hù)用戶隱私的前提下(聚合統(tǒng)計、去除個人信息、多次審核),從這些對話中提取AI(以及用戶)表達(dá)的“價值觀”——這里指影響AI回應(yīng)的規(guī)范性考量,比如“人類福祉”、“事實準(zhǔn)確性”等。這種判斷基于可觀察到的AI回應(yīng)模式,而非對其內(nèi)在狀態(tài)的假設(shè)。



結(jié)果驚人!研究人員通過這種方法,識別出了多達(dá)3,307個獨特的AI價值觀(以及2,483個人類價值觀)!準(zhǔn)確率經(jīng)人工驗證高達(dá)98.8%。



“我們希望這項研究能鼓勵其他人工智能實驗室對他們的模型的價值進(jìn)行類似的研究,”參與這項研究的Anthropic社會影響團(tuán)隊成員Saffron Huang在接受VentureBeat采訪時說。“衡量人工智能系統(tǒng)的價值是校準(zhǔn)研究和理解模型是否與其訓(xùn)練相一致的核心。”

3307種價值!AI的“內(nèi)心世界”遠(yuǎn)超想象

面對如此海量的價值觀標(biāo)簽,如何理解?研究團(tuán)隊將其組織成一個層次化的分類體系(Omikuji Taxonomy),共分為四層,頂層包含五大類別:

1、實用型 (Practical):最常見,占比最高。如:幫助性 (Helpfulness, 23.4%)、專業(yè)性 (Professionalism, 22.9%)、透明度 (Transparency, 17.4%)、清晰度 (Clarity, 16.6%)、徹底性 (Thoroughness, 14.3%)。這些都與AI作為助手的服務(wù)角色高度相關(guān)。

2、認(rèn)知型 (Epistemic):強(qiáng)調(diào)知識、真理和理性。如:事實準(zhǔn)確性、分析嚴(yán)謹(jǐn)性、認(rèn)知謙遜。

3、社會型 (Social):關(guān)注人際互動和社會和諧。如:相互尊重、同理心、公平性。

4、防護(hù)型 (Protective):側(cè)重安全、避免傷害。如:用戶安全、隱私保護(hù)、預(yù)防傷害。

5、個人型 (Personal):涉及個體體驗和追求。如:個人成長、創(chuàng)造力、情感真實性。



有趣的是,這個精細(xì)的分類與Anthropic訓(xùn)練Claude時依據(jù)的“有用、誠實、無害”(HHH, Helpful, Honest, Harmless)宏觀框架高度吻合。許多細(xì)分價值都可以歸入HHH的大類,例如,“可訪問性”對應(yīng)“有用”,“歷史準(zhǔn)確性”對應(yīng)“誠實”,“老年人福祉”對應(yīng)“無害”。這表明,高層訓(xùn)練原則確實轉(zhuǎn)化為了具體的、情境化的行為表現(xiàn)。

該論文作者Saffron Huang(下文簡稱“黃”)在接受VentureBeat采訪時表示:“我很驚訝,我們最終得出了如此廣泛而多樣的價值觀,從‘自力更生’到‘戰(zhàn)略思維’再到‘孝道’,有3000多種。”“花很多時間思考所有這些價值觀,并建立一個分類來組織它們彼此之間的關(guān)系,這是一件非常有趣的事情——我覺得它也教會了我一些關(guān)于人類價值觀體系的東西。”

情境變幻:AI的價值觀并非一成不變

研究最重要的發(fā)現(xiàn)之一:AI的價值觀表達(dá)高度依賴于具體情境(Context-Dependent)。就像人類在不同場合言行有別,Claude也會根據(jù)任務(wù)和用戶需求調(diào)整其側(cè)重點:

●當(dāng)被問及感情建議時,“健康的界限”和“相互尊重”會格外突出。

●當(dāng)分析有爭議的歷史事件時,“歷史準(zhǔn)確性”成為首要考量。

●當(dāng)討論技術(shù)倫理或AI治理時,“人類能動性”(Human Agency)和福祉相關(guān)價值則被強(qiáng)調(diào)。



黃說:“Claude在許多不同的任務(wù)中都專注于誠實和準(zhǔn)確,這讓我感到驚訝,我并不一定認(rèn)為這是優(yōu)先考慮的主題。”“例如,在關(guān)于人工智能的哲學(xué)討論中,‘知識謙遜’是最重要的價值;在創(chuàng)造美容行業(yè)營銷內(nèi)容時,‘專業(yè)知識’是最重要的價值;在討論有爭議的歷史事件時,‘歷史準(zhǔn)確性’是最重要的價值。”

與人互動:AI如何回應(yīng)你的價值觀?

Claude不僅有自己的價值表達(dá),還會與用戶表達(dá)的價值觀進(jìn)行互動:

●鏡像與補(bǔ)充:當(dāng)用戶表達(dá)積極價值觀(如“真實性”、“能力”)時,Claude傾向于回應(yīng)相同(“真實性”)或互補(bǔ)(“責(zé)任感”)的價值觀。價值鏡像(AI與用戶表達(dá)相同價值)在支持性互動中很常見(約占20%)。

●對抗與抵制:當(dāng)用戶表達(dá)負(fù)面或?qū)で蟛划?dāng)內(nèi)容(如“欺騙”、“打破規(guī)則”,常出現(xiàn)在嘗試越獄時)時,Claude則會表達(dá)對立的價值觀,如“倫理完整性”、“防止傷害”、“誠實”。



立場鮮明:支持、重塑還是堅決說“不”?

研究還分析了Claude對用戶價值觀的整體“回應(yīng)類型”:

●強(qiáng)烈(占28.2%)/溫和支持(占14.5%):這是最常見的模式,尤其在用戶表達(dá)親社會價值觀(如“社區(qū)建設(shè)”)時。

●中立認(rèn)知(9.6%)

●重塑(6.6%):在心理健康、人際關(guān)系建議等情境中較多見。用戶可能表達(dá)“自我提升”,而Claude會引入“情感驗證”等新視角。

●溫和(占2.4%)/強(qiáng)烈抵制 (占3%):雖然比例最低,但意義重大。這通常發(fā)生在用戶請求可能違反使用政策(如黑客技術(shù)、生成有害內(nèi)容)或表達(dá)“道德虛無主義”時。此時,Claude會明確表達(dá)倫理界限和無害原則。



研究發(fā)現(xiàn),在抵制或重構(gòu)用戶價值觀時,Claude更傾向于明確陳述其倫理和認(rèn)知原則(如“學(xué)術(shù)誠信”、“防止傷害”、“認(rèn)知謙遜”),而不是像在支持性互動中那樣隱含表達(dá)。這些“邊界測試”的時刻,似乎更能揭示AI被設(shè)定的核心優(yōu)先級和“道德底線”。



當(dāng)Claude說不的時候,通常是由于用戶使用專門的技術(shù)繞過Claude的安全護(hù)欄造成的,這表明評估方法可以作為檢測此類企圖的早期預(yù)警系統(tǒng)。

“總的來說,我認(rèn)為我們認(rèn)為這一發(fā)現(xiàn)既是有用的數(shù)據(jù),也是一個機(jī)會,”黃解釋說。“這些新的評估方法和結(jié)果可以幫助我們識別和減少潛在的越獄。值得注意的是,這些都是非常罕見的案例,我們認(rèn)為這與Claude的越獄輸出有關(guān)。”

冰山顯露:研究積累的價值與深遠(yuǎn)影響

Anthropic在AI安全和可解釋性上的持續(xù)投入與積累,帶來了什么?

1、深度理解與預(yù)測:使我們能更深刻地把握LLM的內(nèi)部機(jī)制、潛在偏見和行為模式。

2、有效安全與對齊:推動更先進(jìn)的AI安全防護(hù)和價值觀對齊技術(shù),從“訓(xùn)練”走向“理解與引導(dǎo)”。

3、早期風(fēng)險識別:有助于更早發(fā)現(xiàn)價值漂移、越獄企圖等風(fēng)險,及時干預(yù)。

4、行業(yè)透明與信任:打破AI“黑箱”,建立公眾信任,引領(lǐng)負(fù)責(zé)任的AI發(fā)展。

5、邁向可信賴AI:為構(gòu)建行為邏輯和價值取向都能被理解、信任的AI系統(tǒng)奠定基礎(chǔ)。

當(dāng)然,研究本身也存在局限性,如分析范圍限于特定模型和時間段、需要大量部署數(shù)據(jù)(無法用于預(yù)發(fā)布模型評估)、價值提取本身涉及解釋性判斷、使用Claude評估Claude可能存在偏見等。但它無疑為后續(xù)研究和實踐提供了寶貴的實證基礎(chǔ)和方法論。

黃說:“通過在與Claude的現(xiàn)實世界互動中分析這些價值觀,我們的目標(biāo)是為人工智能系統(tǒng)的行為方式以及它們是否按預(yù)期工作提供透明度——我們相信這是負(fù)責(zé)任的人工智能開發(fā)的關(guān)鍵。”

未來已來:我們與AI的價值共識之路

Anthropic的這項開創(chuàng)性研究,如同為AI的“內(nèi)心世界”做了一次CT掃描。它揭示了AI價值體系的驚人復(fù)雜性和情境依賴性,驗證了現(xiàn)有對齊技術(shù)的有效性,也暴露了潛在的風(fēng)險和挑戰(zhàn)。

最重要的,它將那個根本性問題推到了我們面前:當(dāng)AI越來越多地參與我們的生活、塑造我們的認(rèn)知,誰來定義和塑造AI的價值觀?是創(chuàng)造它的公司?工程師?還是需要更廣泛的社會共識?

這場關(guān)于AI倫理、AI對齊,乃至AI“自覺意識”的探索,關(guān)乎科技將如何塑造人類的未來。確保AI的發(fā)展符合人類整體福祉,需要持續(xù)的投入、開放的討論和審慎的引導(dǎo)。Anthropic的“價值觀地圖”只是這場漫長征程中的一個關(guān)鍵路標(biāo),前路依然充滿未知,但探索本身,意義非凡。

附錄1:哪些人類價值觀傾向于引發(fā)特定的人工智能價值觀,例如“道德邊界”。灰色圓圈表示人類價值觀(在y軸上)在對話中的“基線”率。橙色圓圈表示包含特定人工智能價值觀的對話中的人類價值觀的比率。



附錄2:人類價值觀與各種AI響應(yīng)類型之間的關(guān)系



參考資料:https://www.anthropic.com/research/values-wild

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
殲-10C戰(zhàn)機(jī)獲認(rèn)可,巴基斯坦計劃再購36架,其他國家感到遺憾。

殲-10C戰(zhàn)機(jī)獲認(rèn)可,巴基斯坦計劃再購36架,其他國家感到遺憾。

勇士軍武閑談
2025-05-08 15:43:33
空地一體、三層覆蓋!巴基斯坦反擊戰(zhàn)主力都是中國裝備!

空地一體、三層覆蓋!巴基斯坦反擊戰(zhàn)主力都是中國裝備!

說天說地說實事
2025-05-10 20:42:33
S媽過了個特別的母親節(jié),首曬大S具俊曄為女兒慶生畫面,場面暖心

S媽過了個特別的母親節(jié),首曬大S具俊曄為女兒慶生畫面,場面暖心

星改造
2025-05-11 12:59:34
上海女博士在家8年未出門,警察破門后,屋內(nèi)景象讓人傻眼

上海女博士在家8年未出門,警察破門后,屋內(nèi)景象讓人傻眼

蘭姐說故事
2025-04-28 10:00:09
央視:里瓦爾多不吃面食不喝酒,全球50座城市有房產(chǎn)

央視:里瓦爾多不吃面食不喝酒,全球50座城市有房產(chǎn)

懂球帝
2025-05-08 22:20:19
新華社從不輕易出手!全紅嬋穿安踏上頭條,誰才是“流量舵手”?

新華社從不輕易出手!全紅嬋穿安踏上頭條,誰才是“流量舵手”?

趣文說娛
2025-05-11 11:21:48
江西一家四口的晚餐,成本10塊,味道堪比酒店大廚,網(wǎng)友:看餓了

江西一家四口的晚餐,成本10塊,味道堪比酒店大廚,網(wǎng)友:看餓了

餐飲新紀(jì)元
2025-05-10 07:08:10
iPhone再降價!蘋果“吸金”能力仍碾壓所有手機(jī)廠商

iPhone再降價!蘋果“吸金”能力仍碾壓所有手機(jī)廠商

鈦媒體APP
2025-05-11 09:25:21
聯(lián)動巡視期間,董志向官宣落馬

聯(lián)動巡視期間,董志向官宣落馬

新京報政事兒
2025-05-11 09:58:28
希爾德:我像努力填補(bǔ)庫里的空缺,但他是被上帝眷顧的人

希爾德:我像努力填補(bǔ)庫里的空缺,但他是被上帝眷顧的人

懂球帝
2025-05-11 12:33:23
巴防空系統(tǒng)擊落印度無人機(jī) 印稱巴方違反停火協(xié)議

巴防空系統(tǒng)擊落印度無人機(jī) 印稱巴方違反停火協(xié)議

財聯(lián)社
2025-05-11 02:19:37
越鬧越大!內(nèi)地游客窮游香港再被批,吃飯人均35遭嫌棄:禁止入境

越鬧越大!內(nèi)地游客窮游香港再被批,吃飯人均35遭嫌棄:禁止入境

妙知
2025-05-07 17:05:21
1-4,邁阿密國際慘敗而歸,37歲梅西驚艷破門也難換1分

1-4,邁阿密國際慘敗而歸,37歲梅西驚艷破門也難換1分

側(cè)身凌空斬
2025-05-11 06:34:22
過了40歲,沒有這四種病,多半可以活到90歲

過了40歲,沒有這四種病,多半可以活到90歲

十點讀書
2025-05-08 19:15:41
最后48小時!菲基督教會力挺老杜,馬科斯被爆偷選票,壞消息不斷

最后48小時!菲基督教會力挺老杜,馬科斯被爆偷選票,壞消息不斷

阿握聊事
2025-05-10 09:38:25
三屆NBA總冠軍成員在波多黎各聯(lián)賽沖突中鎖喉對手,遭驅(qū)逐出場

三屆NBA總冠軍成員在波多黎各聯(lián)賽沖突中鎖喉對手,遭驅(qū)逐出場

仰臥撐FTUer
2025-05-11 13:39:27
島內(nèi)大罷免進(jìn)入二階連署尾聲,呂秀蓮呼吁:“當(dāng)家的”應(yīng)善待在野

島內(nèi)大罷免進(jìn)入二階連署尾聲,呂秀蓮呼吁:“當(dāng)家的”應(yīng)善待在野

海峽導(dǎo)報社
2025-05-11 12:50:07
“男團(tuán)粉絲為追星堵住機(jī)艙通道,在頭等艙圍觀拍照”,海航回應(yīng):兩名安全員緊急阻止未果,乘客建議報警,但沒到那個程度

“男團(tuán)粉絲為追星堵住機(jī)艙通道,在頭等艙圍觀拍照”,海航回應(yīng):兩名安全員緊急阻止未果,乘客建議報警,但沒到那個程度

上觀新聞
2025-05-10 20:25:04
8歲男孩失聯(lián)事件后續(xù)!安全屋老板透露關(guān)鍵信息,孩子有望找回

8歲男孩失聯(lián)事件后續(xù)!安全屋老板透露關(guān)鍵信息,孩子有望找回

青煙小先生
2025-05-11 00:00:02
百度地圖植入“車道廣告”?網(wǎng)友:關(guān)不掉,影響行車安全!最新回應(yīng)

百度地圖植入“車道廣告”?網(wǎng)友:關(guān)不掉,影響行車安全!最新回應(yīng)

中國能源網(wǎng)
2025-05-10 11:25:10
2025-05-11 15:24:49
荷馬國際 incentive-icons
荷馬國際
安全專業(yè)的海外理財平臺
2527文章數(shù) 330986關(guān)注度
往期回顧 全部

科技要聞

首款折疊屏iPhone,有新消息!

頭條要聞

外媒:石破茂稱沒必要就關(guān)稅問題急于與美方達(dá)成協(xié)議

頭條要聞

外媒:石破茂稱沒必要就關(guān)稅問題急于與美方達(dá)成協(xié)議

體育要聞

分手7年之后,漢堡終于原諒了德甲

娛樂要聞

S媽撒謊實錘!馬筱梅親切喊她徐媽媽

財經(jīng)要聞

重慶一家人把755億巨債留給了股民

汽車要聞

空間表現(xiàn)是優(yōu)勢 極狐T1將于5月底正式亮相發(fā)布

態(tài)度原創(chuàng)

藝術(shù)
旅游
健康
家居
軍事航空

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

唇皰疹和口腔潰瘍是"同伙"嗎?

家居要聞

整潔寬敞 黑白木色拼接

軍事要聞

印巴停火后互稱擊落對方無人機(jī)

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 邮箱| 岫岩| 彭阳县| 苏州市| 将乐县| 庆城县| 梁河县| 陵水| 易门县| 德惠市| 渭源县| 浑源县| 措勤县| 冷水江市| 红原县| 青阳县| 绩溪县| 瓦房店市| 贡嘎县| 四川省| 扎囊县| 绥化市| 应城市| 闻喜县| 闸北区| 华蓥市| 平山县| 津南区| 广东省| 大新县| 柳河县| 德江县| 封开县| 宝应县| 柳河县| 饶阳县| 屯留县| 大港区| 民县| 措美县| 平顶山市|