昨天,百度發布了兩款大模型文心4.5和X1,已全部上線并且免費使用。
文心4.5是一款多模態模型,能對文字、圖片、視頻、音頻等內容進行綜合解讀。例如,給一個視頻,讓其對內容識別然后再寫一份深度分析(非常不錯可以解讀英文)。能力大幅度超過OpenAI的GPT-4o。
X1和DeepSeek-R1一樣具備深度思考能力,能對提出的問題進行理解、規劃、反思、進化能力,同樣支持多模態。
此外,X1也是首個能自動調用高級搜索、文檔問答、AI繪圖、代碼解釋器、網頁鏈接讀取、TreeMind樹圖、百度學術檢索、商業信息查詢等眾多特色工具。所以,X1更像是一個推理能力超強的智能體。
免費體驗地址:https://yiyan.baidu.com/X1
文心4.5和X1案例展示
其實多模態理解已經成為國內外大模型的標配,但能直接高效準確解讀視頻的模型并不多。而文心4.5就具備這種特殊能力。
這里就用今天咱們二條發布的,美國陸軍收到首個AI模型驅動的軍事情報戰車TITAN宣傳視頻做解讀案例。
因為這是剛出的視頻,大概率不在預訓練模型的數據范圍內,能很好地考驗文心4.5基于多模態的理解能力,對全新未知內容的分析水平。
需要解讀的原視頻
需要注意的是,上傳的視頻不能超過20M,支持Mp4、MOV、MKV等常規格式。
上傳完視頻后,提問,這是一個什么視頻?大約用了不到1分鐘,解讀效率還是相當高的。
文心4.5給出了完整TITAN答案,解讀基本上是正確的,可以比肩谷歌的NoteGPT。這個功能對于需要快速了解國外學術介紹、娛樂影視的人來說很有幫助。如果視頻太大,記得可以先壓縮之后再上傳。
音頻解讀一樣準確高效,一次可以上傳10個音頻,單個最大別超過10M,支持mp3、m4a、wav等常規格式,有興趣的小伙伴可以體驗一下。
再體驗一下X1,其特殊能力就是能自動調用多種其他工具。
例如,讓X1自動解讀一下電影《肖申克救贖》的海報,直接提問“這是一張什么圖片?”
X1開啟了深度思考模式,我們可以清楚看到它自動調用了圖片理解工具,幫它來解讀這張圖片。
在得到結果后,總結出了圖片的主題秒速、背景與色調、風格設計等主要框架,最后進行了完整的輸出。
我們接著提問,根據這個電影寫一份200字的影評。文本風格歡快一些,最好帶點網絡梗。
這次X1沒有調用別的工具,因為只是簡單的文本生成,但也會梳理一下輸出邏輯,包括影評基調、加入網絡梗、內容點評等。
最后輸出的結果如下:
《肖申克的救贖》yyds!這部片子簡直是"監獄版《越獄》"的鼻祖,蒂姆·羅賓斯演的安迪簡直是個"神級挖坑王",用一把小鶴嘴鋤挖出自由之路,看得人熱血沸騰!
摩根·弗里曼的旁白更是"金句制造機","希望是好事,也許是人間至善"這句話,我直接原地emo轉雞血!影片節奏就像"德芙巧克力,縱享絲滑",看完感覺心靈都被"越獄"了!姐妹們,答應我,沒看過的一定要沖,這片子保熟!
感覺寫的還行,有小紅書那味兒了吧。可以在這個基礎之上改一改就能直接出文案了。
至于價格方面,個人用戶是免費使用這兩款大模型;企業開發者在百度智能云千帆大模型平臺,現在能直接使用文心4.5 API,輸入價格低至0.004元/千tokens,輸出價格低至0.016元/千tokens;
X1也即將在千帆平臺上線,輸入價格低至0.002元/千tokens,輸出價格低至0.008元/千tokens。
文心4.5和X1架構簡單介紹
根據百度官方介紹,文心4.5主要使用了FlashMask動態注意力掩碼、多模態異構專家擴展、時空維度表征壓縮技術等多種創新技術,使其在多模態的理解和生成方面得到了質的飛躍。
傳統的注意力掩碼計算在處理長序列時往往面臨效率瓶頸,而FlashMask通過動態調整注意力掩碼的方式,能夠加速計算過程。使得模型在處理長文本或長序列數據時表現更加出色。還能優化多輪交互場景下的性能,這對于需要連續對話或長文本生成的應用場景具有重要意義。
多模態異構專家擴展技術主要解決不同模態之間的梯度不均衡難題。在多模態模型中,圖像、文本、音頻等不同模態的數據特性差異很大,導致它們在訓練過程中梯度更新速度不一致,進而影響模型的整體性能。
通過構建模態異構專家,為每種模態設計專門的處理模塊,并結合自適應模態感知損失函數,該技術能夠動態調整各模態的權重,從而平衡梯度更新,提升多模態融合的效果。
時空維度表征壓縮技術針對的是多模態數據中的圖片和視頻語義表征。在多模態訓練中,圖片和視頻的語義信息往往需要大量的計算資源來處理,尤其是長視頻數據。
通過在時空維度對這些語義表征進行高效壓縮,大幅減少了計算量,提升了多模態數據的訓練效率。同時,還增強了模型從長視頻中提取世界知識的能力,這對于提升模型對復雜場景的理解和生成能力至關重要。
根據測試數據顯示,文心4.5的原生多模態能力,在CCBench、OCRBench、MMMU、MathVista等主流基準測試中,大幅度超過了OpenAI發布的GPT-4o。
X1的深度思考能力則應用了基于思維鏈和行動鏈的端到端訓練,將輸入直接映射到輸出的訓練方式,避免了傳統多階段訓練中可能出現的信息丟失和誤差累積問題。
在深度搜索場景中,模型不僅需要考慮搜索結果的相關性,還需要理解用戶的搜索意圖,通過思維鏈的構建,將用戶的意圖分解為一系列的邏輯步驟,然后通過行動鏈將這些步驟轉化為具體的搜索行為。
例如,當用戶輸入一個復雜的查詢請求時,模型首先通過思維鏈理解用戶可能需要的信息類型、范圍和優先級,然后通過行動鏈調用不同的搜索工具或算法,逐步細化搜索結果,最終提供最符合用戶需求的答案。這種端到端的訓練方式能夠根據最終的結果反饋,直接調整模型的參數,從而顯著提升訓練效果。
百度表示,未來會開源文心4.5大模型。
本文素材來源百度、文心一言,如有侵權請聯系刪除
報告下載
大 佬觀點分享
關于RPA、AI、企業數字化轉型
(點擊文字即可閱讀)
| |
| | |
| | |
| | |
| |
行業知識交流分享,結識擴展人脈圈層
公眾號后臺回復【RPA】或者【流程挖掘】
可受邀加入相關的交流群
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.