2023年4月的一天,印度的數字藝術家戈庫爾·皮萊(Gokul Pillai),在社交網站上發布的“貧民窟的億萬富翁”的人工智能(AI)畫作。特朗普、馬斯克和比爾·蓋茨等億萬富豪們變成了貧民窟居民,衣衫襤褸,蓬頭垢面,與周圍環境毫無違和感,看起來非常真實。戈庫爾·皮萊是從電影《貧民窟的百萬富翁》獲得靈感,他用Midjourney工具制作了圖像,并在Photoshop軟件里進行調整,前后花了兩天的時間。
這兩年,逼真,真實,或者說像真的一樣,成為了AI作畫生圖是否成功的一個重要標準。就像人會有記憶混亂和錯覺的時候,人工智能生成圖片時,想要一張愛因斯坦的,結果臉是濮存昕的,這就離了個大譜。
過去24個月大模型基本消除了幻覺,一個解決方案浮出水面
準確性是評估AI生成圖像效果的首要標準。但人有錯覺,AI也有幻覺。用一個開源模型生成北京天壇的圖,游覽過的人甚至古建筑專家看出了問題,原來真正的天壇是3層建筑,卻生成了4層。
這種“一眼假”是怎么回事呢?在大模型進化過程中,人類世界很快解決了文生文的生成式人工智能迭代,但是文生圖遇到了AI幻覺問題,生成的圖片給人明顯不夠逼真的感覺。檢索增強生成,也就是RAG(Retrieval-augmented Generation)技術,是業內解決大模型幻覺的一種有效方法,它是結合檢索和生成的技術方法,可以提升生成內容的可靠性和準確性。
很多基于大語言模型的文生圖系統,目前生成的圖片還不夠真實,甚至不符合邏輯。這很大程度上限制了多模態大模型的規模化應用。2024年年初,百度決定解決圖像生成的幻覺問題,自研了文心iRAG技術。
文心iRAG技術作為解決方案浮出水面,百度還確實有一點優勢。那就是百度搜索收錄了海量特定事物的可信圖片資源。大模型的生成能力與這個“外掛知識庫”相結合,iRAG就可以做到在生成特定物品、特定人物以及特定人物與任意背景結合的圖像時,提高生成圖像的準確率,減少幻覺無限接近真實感。現在,中國有模型可以代表人工智能世界說,過去24個月大模型基本消除了幻覺。
文心iRAG,專為去AI味兒
在文心iRAG技術的支持下,大模型生成一套“讓愛因斯坦環游世界”的圖片,悉尼歌劇院、巨石陣、萬里長城、鳥巢、南極……和愛因斯坦這個特定人物,生成融合的非常逼真。盡管鳥巢是愛因斯坦去世后才有的建筑,但是文心iRAG技術處理得沒有違和感。
將百度搜索的億級圖片資源跟強大的基礎模型能力相結合,生成各種超真實的圖片,整體效果遠遠超過文生圖的原生系統,去掉了那一股AI味兒。這里面就包括了特定人物精準生成的選項。用文心iRAG,生成一張奧黛麗赫本寫書法的圖,會發現連赫本身上的衣服都很中式,顏色與書法藝術、環境都很搭,簡直就像真的一樣。
2023年初,人們剛開始了解ChatGPT或者文心一言時,最大的擔憂就是模型的幻覺,很多人無法相信AI給出的答案。現在這個問題已經基本得到解決。今天,跟文心大模型交流,有了iRAG技術,可以很大程度或者基本相信它給出的答案。特別是生成式的圖片,非常靠譜的滿足了用戶的文本需求,這是人類社會人工智能進化的一個巨大的標志。
“超級有用”的行業應用降本增效,解放人類生產力
隨著iRAG技術的日益成熟和穩定,AI生成圖片的可用性大大提高,那么iRAG技術的最大價值在哪里呢?答案清晰的:落地應用。在某個品牌宣傳場景,以前拍一組海報動輒需要一二十萬,甚至大幾十萬,但是現在使用iRAG技術的大模型,創作的成本接近于零。廣告行業、品牌傳播、影視娛樂、公司文化……一系列的行業,會在iRAG技術的加持下優化作品和提升效率。
如果要總結iRAG的優點,那就主要是四項:無幻覺、超真實、沒成本,立等可取。印度的數字藝術家戈庫爾·皮萊創作看起來逼真的AI畫作需要兩天,文心iRAG只需要幾十秒。而在地球上,這才過去了18個月,人類讓大模型技術再次進化。
在李彥宏看來,中國AI的發展特色是應用驅動。這也是中國與全球人工智能行業市場最明顯的區別。中國市場上有數百種基礎大模型,但人們更關心產品與市場的契合度(PMF),更關心哪些應用將從大模型中獲益,許多初創公司都在研究如何運用大模型能力。
實用主義的視野下,這也是解放了人類生產力的iRAG技術會產生的貢獻。人類社會就是在一直進行降本增效的各種探索與創新,從未間斷。iRAG技術推動“超級有用”的行業應用出現,AI就會更充分更好的為人類所利用。這應該是未來世界科學技術的一條應用正道。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.