99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

大模型可信應用新思路:不止有“電機”,還得有“電控”?

0
分享至



大模型在高可靠性要求場景如何實現產業落地?

文|徐鑫

編|任曉漁

大模型浪潮席卷大眾生活已經兩年多,當下,這一領域大眾預期和產業落地之間正呈現出微妙落差。

大眾感知層面,模型的能力以周為單位快速更新迭代,各種評測指標及榜單上模型能力正在各類任務上超越人類。但到產業端卻是另一番圖景。在工業制造、醫療健康、金融等諸多場景,許多業界人士都提到,大模型還在單點應用階段,大規模鋪開仍有距離,ToB大爆款應用更是稀缺。

落差的根源在于,專業場景對大模型可靠性要求極高,遠超通用模型當下能力表現。有人將這個情形解釋為,學通識教育的優秀本科生當不了臨床醫生。

為了確保專業領域的準確性,業界已有不少動作如微調、檢索增強、知識庫等,但產業界仍普遍感覺大模型可信應用有待破局。

7月27日在WAIC“從通用智力到專業生產力:高階程序引領的AI應用新范式”論壇上,螞蟻集團旗下螞蟻密算提出了一個新的解決思路——基于高階程序(High-Order Program)的大模型可信應用技術框架,汲取人類智能來解決高可靠要求場景的經驗,用專家經驗、領域知識和多重核驗,從工程化層面來確保執行準確性。

論壇上螞蟻密算還宣布正式將這一技術框架對外開源,推動大模型在行業的可信應用進程。



螞蟻集團副總裁、螞蟻密算董事長韋韜用新能源車來比喻今天的大模型產業應用。大模型相當于新能源車的電機系統,是通用的智力引擎。而整個可靠性保障其實要靠電控部分。

“之前不可靠大家怪發動機。我們覺得高階程序是很好的控制體系,能有效承擔行業AI應用電控部分的智能。電池部分是數據。未來行業AI應用,核心就是數據、智能模型和高階程序,支撐起整個行業AI變革。”

01

大模型產業級應用,卡在“最后一公里”

玩過圖片生成類應用的人,肯定見過AI鬧出的烏龍。生成的畫面看起來像模像樣,但仔細一看,總會出現諸如人物左手手指多了一根,右手關節不自然扭曲,圖片里的文字和字母總像鬼畫符等問題。

過去兩年模型持續迭代下,這些問題已經有了極大改善。比如生成字母和文字,現在模型表現已經基本能做到不出太大問題。但偶爾AI生成的圖片還是會冷不丁冒出些瑕疵。

內容生成領域同樣是重災區。輸入提示詞讓AI幫忙生成一篇文章,有時候AI給出的結果洋洋灑灑上千字,仔細一看參考文獻和關鍵數據卻都是AI編的。

大眾通用場景的問題容錯率較高,上述問題尚且無傷大雅。在工業制造、醫療、金融等關乎生命安全以及涉及到真金白銀資金安全的場景,產業界對AI的準確度有更高期待,模型的可靠性不足問題可能正成為產業應用的攔路虎。

IDC在一份報告中就提到,基于300余家企業的問卷顯示,87%的企業認為現有模型精度無法滿足業務落地要求,無法衡量具體效果。具體表現在涉及用戶信息、面向生產和決策的任務中,對模型的邏輯推理、任務執行要求更高。

一位工業AI服務商則告訴數智前線,工業生產控制場景對模型的安全性、精準性、時效性、泛化能力有極高要求。比如化工行業,鍋爐或者反應池經常有高溫、高壓、易燃、易爆特性,同時反應過程復雜,流程環節多,一旦AI的結果不準確,可能就會干擾和影響工業領域的正常生產運轉,嚴重的情況還會引發安全事故。

這位AI服務商提到,這也使得行業里AI落地進展相比許多通用領域要來得更為滯后。

而醫療領域也是同樣,由于大語言模型的推理過程是算法“黑盒”,醫療大模型在實際應用中通常面臨可解釋性和可靠性等問題。

業界認為,大模型應用遭遇的可靠性不足,可能有兩個層面原因。

一方面,它與大模型固有的幻覺有關。當信息不完整或者存在矛盾時,大模型會通過“補全邏輯”生成看似合理的解釋。同時,目前前沿研究顯示,幻覺問題并未隨著模型規模的擴大和技術的迭代進步而徹底根治。今年4月OpenAI就在一份報告中指出,在需要總結關于人物的事實時,o3和o4-mini模型分別有33%和48%的時間產生錯誤信息,而其早期o1模型的幻覺率只有16%。

另外,模型對用戶輸入指令的遵循存在一定不確定性,尤其在復雜任務、多步驟推理或約束嚴格的業務場景下,模型出現指令誤解、覆蓋、遺漏等情況問題更為突出。今年6月蘋果在其機器學習研究網站上發表的研究就顯示,推理模型會在任務超過臨界閾值時,推理完全崩潰。

在WAIC“從通用智力到專業生產力:高階程序引領的AI應用新范式”論壇上,一眾專家和與會行業人士探討大模型在產業端可信應用的解法時認為,解決的路徑可能不只在模型端。



浙江大學教授、區塊鏈與數據安全全國重點實驗室主任陳純就認為,幻覺并非要被“趕盡殺絕”的負面元素,這與大眾認知存在一定出入。

陳純稱,模型的幻覺,恰恰是人工智能系統智能水平發展到一定高度的產物。若消除所有幻覺,大模型將退化為機械的檢索工具。韋韜則以元素周期表和苯環結構發現為例,認為人類智能里非邏輯性跳躍的思維方式與幻覺類似,但它曾經顯著推進了人類文明的進程。

如果幻覺不應成為產業端應用的問題,大模型在高準確度場景里規模應用解法在哪?陳純認為,可靠性的突破不在于消滅“智力特征”,而在于構建工程化保障框架。

韋韜也指出,“現在有一些不太好的思潮,把智能化和工程化對立了,任務解決問題的思路沒有放在模型端,就顯得沒那么智能。”韋韜認為,應該借鑒人類智能的經驗,以智能化疊加工程化,確保在高可靠性要求場景里的大模型可信應用。

02

HOP,用工程化確保大模型可信應用

在大模型可信應用應采取智能化和工程化疊加的理念驅動下,螞蟻密算也展開了大模型可信應用的系列探索。

在WAIC上,螞蟻密算公布并開源了正在探索的方向——HOP大模型可信應用技術框架,這是確保大模型在高可靠性要求場景落地應用一種新思路。



韋韜介紹,人類在處理復雜任務時也會犯錯,而很多專業領域對正確性有嚴格的要求,比如民航、醫院、建筑公司、生產線等場景都對故障都有著極低的容忍度。

為了解決可靠性問題,人們在這些場景里的典型做法是采取標準作業程序(SOP),將生產或工作中的操作流程、作業方法、工具使用、時間安排等要素進行系統化、規范化,形成一套可重復、可量化、可優化的操作標準,并通過核驗和測試檢驗來確保最終執行的準確可靠。

這種方案能讓每個人都以標準方式行動,最大程度地減小錯誤風險和增加錯誤檢測幾率。而HOP也汲取了這一思路,用分解、核驗和實測三步,從工程化層面來確保模型執行結果的可靠性



WAIC螞蟻密算展臺。

所謂的HOP,高階程序語言(High-Order Program),是編程語言和自然語言的融合,集兩者之長,又規避了兩種語言的缺陷。比如,自然語言有豐富的詞匯和多樣的語法結構,但它的開放性可能帶來了歧義和模糊性。而編程語言是形式化的、精確的語言但使用門檻高。

HOP在處理邏輯部分用編程語言來表達,在涉及知識、語義的模糊、動態匹配時,則靠自然語言完成。“本質上,HOP是把大模型當成CPU來執行編程語言,相比傳統編程語言,因為大模型智能度很高,它又可以處理概念性工作。”韋韜告訴數智前線。

具體來說,基于HOP到大模型可信應用框架,主要依靠三個核心組件來完成可靠性保障。

第一環節是業務邏輯的程序化表達,可以類比為人類處理復雜需求時的任務分拆。

這個過程像SOP一樣將領域內的最佳實踐拆解,并進行程序化構建。程序化語言可避免自然語言帶來的歧義與模糊性,同時復雜業務邏輯被分拆到可核驗的顆粒度,能支撐后繼的高效核驗。同時這種程序化語言也像編程語言類似,有大規模可擴展能力,能為未來應用變動留下靈活空間。

第二個環節是構建場景知識圖譜。目前行業內已有共識,要確保大模型能在垂直領域有99%以上的可靠性,需要的不止是通用語料和行業語料集,還有場景內的專家專業知識沉淀。而領域知識圖譜成了相關領域各類最佳實踐的載體。

在這個環節,自然語言的角色也會加入進來,與領域知識圖譜一起,支持HOP執行時大模型所需的模糊概念的匹配推導。

第三環節,是受控工具鏈。就像人類通過反復檢查核驗來防止出錯一樣,在大模型去執行行業場景任務時,HOP執行框架也有核驗的過程。

同時,由于在任務拆解環節已經確保了顆粒度,執行應用時可以把需要檢查的維度內嵌進去,這使得整個流程里核驗機制貫穿始終。而經過HOP核驗之后,就能確保大模型在專業場景應用的可靠性。

韋韜介紹,一個完整的形式化的核驗框架,對大模型的能力表現提升至關重要。比如現在大模型在解數學題上的表現特別好,本質是因為數學家們已經完成很好的形式化核驗框架。“只要大模型的證明能通過核驗,就能保證結果是對的。那大模型可以不斷換方向去試,總能試對”。

上述三個環節,使得HOP既能承載垂直領域的關鍵知識和實踐,又能通過標準作業程序(SOP)和檢查清單等機制確保大模型實現專業應用的可靠性,還能基于知識概念匹配完成專業知識與場景應用時的適配

韋韜告訴數智前線,高階程序與大模型有很強的互補性。HOP是行業SOP的沉淀,是行業正確性和可靠性的保障,可以優化迭代再驗證后使用。同時,大模型的更新又對HOP有幫助,能讓HOP迭代優化的成本顯著降低,以前需要人去作業的任務,隨著模型智能程度提升,帶來巨大的成本優化。

03

推進大模型行業應用變革

過去兩年,圍繞著大模型可靠性和可落地性,行業應用方展開過一系列探索,包括但不限于提示詞工程、微調以及基于知識庫的RAG等。

比如微調,此前就被視作行業落地時必要的一步,用來完成場景內的模型能力適配。“之前但凡一個模型在行業應用有問題時,大家就會想到微調”,一位行業人士稱。

但經過一兩年落地探索,業界也觀察到微調存在不少局限。比如它需要準備語料集基于語料集去訓練,但這可能會導致沒訓練的部分劣化,出現推理能力退化。另外,一個模型微調后就分裂為兩個模型,它可能導致未來部署應用成本的顯著上升和管理難度的增加。

領域內知識積累和專家經驗的沉淀,過去兩年一直被視作大模型落地的重要Know-how。一些企業在分享自身應用在垂直場景應用經驗時也通常會提到這一點。

不過,資深人士指出,這些企業的探索多是單家企業的摸索,每一家都從頭開始。從產業界整體現狀看,缺乏有效的沉淀機制,讓領域內專家知識和經驗的積累沉淀能以比較有效的機制去規模化復制。



今年WAIC人潮如織,火爆異常。

韋韜提到,此次螞蟻密算推出HOP框架,也是業界里比較系統地從工程化層面來思考大模型應用可靠性問題,并將可靠性提高如此高度的企做法。它具有成本低、可靈活迭代、更具穩定性以及更能規模化應用等多個特征,有利于大模型可信應用在產業界的推進

以成本為例,韋韜介紹,相比傳統的微調方案,以前需要更大算力支撐來訓練,但HOP框架則并不需要如此高投入。

而在靈活迭代上,只要大模型執行時正確率和完成率指標達不到要求,應用方可以基于HOP框架可以去進行優化。

比如把操作流程進一步分拆,核驗進一步進行優化。另外,行業應用時表現不佳還可能與場景知識不全,對場景化術語理解錯誤以及知識圖譜的不足有關。這時候也可以對應通過提供更好的數據,再做好分拆核驗流程,也有望提升模型在場景內的表現。

韋韜認為,高階程序出來之前,工程化很麻煩,因為沒有很好的載體在workflow工作流層面來做這件事,要交付比較麻煩。有了高階程序之后,交付起來非常容易。同時,因為HOP有極高的業務價值,基于螞蟻密算的密算能力來做,可以對整個應用流程進行保護。另外,每個通過驗證的HOP應用,都能夠比較可信可靠去調用。

據了解,目前,高階程技術框架已經在金融風控全鏈路、網絡入侵檢測、醫療重復計費等多行業場景中初步應用,在可靠性和時效性上有顯著提升。

螞蟻密算相關人士介紹,以金融聯合風控場景為例,在傳統金融風控體系下,從數據探查、處理到模型構建與調優的全鏈路操作,高度依賴人工干預,導致流程冗長、響應緩慢,并且容易受人員主觀因素影響,制約了金融風控聯合建模的效率與一致性。

在應用HOP技術框架后,將復雜的SOP轉化為可執行的流程與代碼,實現風控全鏈路的智能化編排與自動化執行。相較于傳統建模人員手動進行數據分析和代碼開發,大模型結合HOP能夠在確保高精度的同時縮短建模周期,并顯著減少了重復性數據處理和流程執行等繁瑣的基礎工作。這不但能降低處理成本,還能夠緩解專業人才緊缺的局面。

但韋韜也指出,基于HOP可能也并非一勞永逸,靠一個應用并不能把所有行業問題都解決。它更多像是提供了一個技術框架,每個具體場景可以通過這個技術框架解決問題。

同時,智能跟工程的融合,智能跟專家知識的融合,都是行業性的命題,需要在不同的領域與各行業的行業專家來共同構建生態,才能推進大模型的可信落地。

“高階程序的可行性框架是來服務整個生態的,我們想通過開源這種形式來跟行業更緊密合作,解決大模型在專業應用中的可靠性困境,推動大模型在專業領域中規模化應用”,韋韜說。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
男星梓渝被曝音樂節演出費高達200萬元,主辦方銀河左岸發布聲明:毫無根據的謠言

男星梓渝被曝音樂節演出費高達200萬元,主辦方銀河左岸發布聲明:毫無根據的謠言

極目新聞
2025-07-27 13:43:20
四年美經濟增35%,為何發展如此強勁?

四年美經濟增35%,為何發展如此強勁?

高博新視野
2025-07-23 16:29:20
出軌視頻被瘋傳!她已辭職

出軌視頻被瘋傳!她已辭職

新晚報
2025-07-25 15:25:29
江西富豪遭滅門,侄子裝死幸存,12年后說出真相警方傻眼:咋是他

江西富豪遭滅門,侄子裝死幸存,12年后說出真相警方傻眼:咋是他

罪案洞察者
2025-07-09 11:53:28
68歲范玉梅病重立遺囑,霍家三代人為20萬存款當場落淚

68歲范玉梅病重立遺囑,霍家三代人為20萬存款當場落淚

科學發掘
2025-07-27 07:21:47
大局已定,房地產即將變天,影響所有買房賣房的人

大局已定,房地產即將變天,影響所有買房賣房的人

科學發掘
2025-07-27 14:29:22
3位臺獨藝人妄圖內地撈金,沒開始就結束!演唱會取消,全面抵制

3位臺獨藝人妄圖內地撈金,沒開始就結束!演唱會取消,全面抵制

不似少年游
2025-06-10 10:40:03
北京密云水庫開閘泄流,大量鰱鳙隨水流沖出

北京密云水庫開閘泄流,大量鰱鳙隨水流沖出

FM93浙江交通之聲
2025-07-28 00:31:22
倆36F妹子擁抱堪稱火星撞地球!現場圖男同胞看完紛紛跪求“夾”入哈哈

倆36F妹子擁抱堪稱火星撞地球!現場圖男同胞看完紛紛跪求“夾”入哈哈

經典段子
2025-07-25 23:28:50
匈牙利總理:世界大戰的可能性正不斷增加

匈牙利總理:世界大戰的可能性正不斷增加

界面新聞
2025-07-27 09:48:17
餓了么前CEO確認被抓!上海警方通報細節,審訊畫面公開

餓了么前CEO確認被抓!上海警方通報細節,審訊畫面公開

魯中晨報
2025-07-27 09:14:14
高校學費“漲”聲一片,錄取通知書成“棄學令”

高校學費“漲”聲一片,錄取通知書成“棄學令”

飛鷹融媒
2025-07-27 23:42:45
男籃即將迎鋒線盛世!五大鋒線展露天賦,王俊杰曾凡博最被期待!

男籃即將迎鋒線盛世!五大鋒線展露天賦,王俊杰曾凡博最被期待!

籃球資訊達人
2025-07-28 00:53:46
你有過合租社死的經歷嗎?網友:大家心中默念,非禮勿視!

你有過合租社死的經歷嗎?網友:大家心中默念,非禮勿視!

解讀熱點事件
2025-07-16 00:15:03
上海市民發現繳費短信不是官方發的!第三方平臺竟抓取車主停車信息后加價收費

上海市民發現繳費短信不是官方發的!第三方平臺竟抓取車主停車信息后加價收費

上觀新聞
2025-07-28 07:29:13
長江差點 “叛逃” 出國?這 1 個 180 度 “神仙拐彎” 太關鍵了

長江差點 “叛逃” 出國?這 1 個 180 度 “神仙拐彎” 太關鍵了

詩意世界
2025-07-27 07:54:42
少林寺方丈釋永信被帶走調查?曾花4.5億搞房地產,否認有兒子

少林寺方丈釋永信被帶走調查?曾花4.5億搞房地產,否認有兒子

180視角
2025-07-27 01:13:41
8月7日立秋,今年立秋有3個好消息,2個壞消息,早看早知道

8月7日立秋,今年立秋有3個好消息,2個壞消息,早看早知道

農夫也瘋狂
2025-07-23 10:44:23
馬卡:阿根廷媒體不滿德保羅轉會,認為其已經忽略了國家隊

馬卡:阿根廷媒體不滿德保羅轉會,認為其已經忽略了國家隊

懂球帝
2025-07-28 07:50:48
連續兩天拍片像燃燒生命!女優的上班時間是?

連續兩天拍片像燃燒生命!女優的上班時間是?

孤獨的獨角獸影視
2025-07-27 09:25:03
2025-07-28 08:48:49
數智前線 incentive-icons
數智前線
關注數字化和智能化
1040文章數 617關注度
往期回顧 全部

科技要聞

一周AI大事:阿里Qwen 3秀肌肉 AI教父上海警告

頭條要聞

牛彈琴:馮德萊恩和特朗普會見細節披露 現場哄堂大笑

頭條要聞

牛彈琴:馮德萊恩和特朗普會見細節披露 現場哄堂大笑

體育要聞

約克雷斯身邊的男人,才是阿森納的最佳引援

娛樂要聞

X玖少年團9成員現狀揭秘:2人成頂流

財經要聞

首位MBA學位方丈釋永信和他的商業版圖

汽車要聞

搭載華為乾崑智駕 一汽奧迪Q6L e-tron預售35.3萬起

態度原創

親子
健康
本地
數碼
公開課

親子要聞

瑾汐今日發文大哈挨巴掌 看到3姐妹這般操作哈爸哈媽給瑾汐面子了

呼吸科專家破解呼吸道九大謠言!

本地新聞

換個城市過夏天|風拂鹽湖,躲進格爾木的盛夏清涼

數碼要聞

華為MatePad Pro 12.2即將正式開售 售價3999元起

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 墨竹工卡县| 西华县| 梁山县| 扎鲁特旗| 沙坪坝区| 泌阳县| 乃东县| 黔西| 临清市| 香格里拉县| 麻江县| 兴宁市| 焦作市| 瓦房店市| 岳阳市| 西峡县| 嘉黎县| 霞浦县| 红桥区| 靖安县| 香港| 开封市| 怀安县| 文水县| 泊头市| 崇文区| 城固县| 岳阳县| 河间市| 广汉市| 瑞昌市| 武安市| 徐闻县| 锦州市| 左贡县| 东港市| 垫江县| 肇东市| 蓝田县| 青浦区| 昆明市|