7月初的上海,出梅入伏,驕陽似火。比這天氣更熱火的,就是這場科技巨頭云集的大會了。
7月4日到7月6日,“以共商促共享,以善治促善智”為主題的2024世界人工智能大會暨人工智能全球治理高級別會議(WAIC 2024)在上海世博中心、世博展覽館舉行。
據了解,大會展覽面積超5.2萬平米,重點圍繞核心技術、智能終端、應用賦能三大板塊,聚焦大模型、算力、機器人、自動駕駛等重點領域,集中展示一批“人工智能+”創新應用最新成果,首發一批備受矚目的創新產品。
今年的大會持續擴容升級,展覽規模、參展企業數、亮點展品數、首發新品數均達歷史最高。根據官方此前披露的信息,有500余家企業確認參展,上海市外企業和國際企業占比超50%,展品數量超1500項,首發新品更是超50款。
過去的一年,人工智能加速發展,大模型層出不窮。此次的大會,百度文心、訊飛星火、阿里通義千問等大模型新星接連亮相。除此之外,人形機器人、數字人、智能AI助理等也成為了今年的熱門展品領域。
商湯:首個“可控”人物視頻生成大模型來了
開幕首日,WAIC公布了“鎮館之寶”名單,其中由商湯科技打造的首個面向C端用戶的可控人物視頻生成大模型——Vimi入選,成為本屆大會最具創新展品。
據元創數智在線了解,Vimi基于商湯日日新大模型的強大能力,僅通過一張任意風格的照片就能生成和目標動作一致的人物類視頻,并支持多種驅動方式,可通過已有人物視頻、動畫、聲音、文字等多種元素進行驅動。
隨著大模型和生成式AI技術的快速發展,讓照片中的人物動起來已經不是新鮮事。不過,目前市面上的相關產品在實際應用中存在諸多痛點,比如,有的人物動作、表情動作無法精準控制,只能頻繁嘗試各種Prompt抽卡;有的效果穩定性不高,人物長相、背景效果變幻莫測……
與圖片表情控制類技術只能控制頭部表情動作不同,Vimi不但可以實現精準的人物表情控制,還可實現在半身區域內控制照片中人物的自然肢體變化,并自動生成與人物相符的頭發、服飾及背景變化。同時光影變化也能做到合理生成,讓人物動作和視覺效果流暢自然,畫面和諧唯美。更重要的是,Vimi具備極強的穩定性,可穩定生成長達1分鐘的單鏡頭人物類視頻,畫面效果不會隨著時間的變化而劣化或失真,真正滿足娛樂互動等需要長時間穩定視頻生成需求。
據悉,目前Vimi已在商湯科技官網開放預約。商湯科技方面表示,Vimi將完全面向C端用戶開放使用。用戶只需上傳不同角度的高清人物圖片,即可自動生成數字分身和不同風格的寫真視頻。由Vimi生成的視頻人物不再只是呆板的五官運動,而是搭配手勢、肢體、頭發等,形成更完整、統一的人物動作,讓創作者可基于生成的視頻素材進行剪輯和再創作。
阿里云:通義千問開源模型下載量破2000萬
此次大會,阿里云AI編程助手通義靈碼也進入了“鎮館之寶”陣列。而站在“通義靈碼”背后的,正是阿里云通義大模型。
7月5日,在世界人工智能大會上,阿里云CTO周靖人公布了近期通義大模型以及阿里云百煉平臺的最新進展。據其表示,近2個月,通義千問開源模型下載量增長2倍,突破2000萬次,阿里云百煉服務客戶數從9萬增長至23萬,漲幅超150%。
去年8月,通義率先加入開源行列,沿著“全模態、全尺寸”開源路線陸續推出了數十款模型,包括語言大模型、多模態大模型、混合專家模型、代碼大模型等,在權威榜單多次創造中國大模型的“首次”。
通義千問最新推出的開源模型Qwen2-72B戰績也很顯赫。在模型匿名PK、8000多位開發者參與投票的中文大模型競技場Compass Arena上,Qwen2-72B-instruct以1090的總分取得國產大模型最高分,總分僅次于GPT-4o。在國際開源社區Hugging Face組織的Open LLM Leaderboard模型測評中,Qwen2-72B-instruct再度登頂,力壓Llama-3、Mixtral、Phi-3等海外模型。
大模型的訓練和迭代成本極高,絕大部分的AI開發者和中小企業都無法負擔。周靖人表示,“阿里云主動開源性能達到GPT4級、超越眾多閉源模型的大模型版本,真正拉平了開源、閉源模型之間的差距,讓普通開發者也能用上最好的AI模型,大大加速了大模型的應用落地進程。”
據悉,通義千問Qwen系列開源模型在全球深受開發者群體歡迎,總下載量在近兩個月內增長2倍,已突破2000萬次。開源社區中還出現了超過3100款基于Qwen二次開發的模型和應用。
為了最大程度降低模型使用門檻、加速AI應用爆發,此前的5月21日,通義千問系列模型大幅降價,GPT-4級主力模型直降97%,低至百萬tokens僅0.5元。據介紹,降價后大批客戶在阿里云上直接調用大模型。近2個月,其百煉服務企業客戶數從9萬增長至23萬,增長超150%。一汽、微博、金山、完美世界、央視網、藍凌科技等眾多知名企業都是阿里云百煉客戶。
B站:AI濃度與日俱增
今年,B站首度參與人工智能大會,亮出的自主研發的AI技術成果和AIGC多元創意,引發了現場熱烈的互動和關注。
過去一段時間來,B站的AI濃度與日俱增:身份不同的UP主,會結合各自所長,制作關于AI技術、應用的視頻內容,進行知識科普;科技媒體、科研機構通過訪談、直播形式,邀請來自BAT、華為、商湯科技等知名企業專家和教授學者,深入剖析AI的最新進展與未來趨勢;從模型測評、AI音頻視頻,到人工智能科普、行業動態,AI內容已在B站形成一股不可忽視的風潮。
此次世界人工智能大會的現場,B站帶來了不少站內爆款的AI內容,從知識測評UP主用AI預測高考試題,到AI教學UP主用萬字科普AI如何顛覆現有工作流、調教AI大模型花式應對偏門問題,一大批AI UP主都在B站找到了自己的賽道。
在WAIC大會現場,B站也展示了其為AI商業化價值落地帶來的新解法。其中,B站UP主成為了傳播科技心智的關鍵。他們用達摩院AI參加數學競賽,用阿里云大模型找出評論區活菩薩,精準識別優質評論,試用Minimax秒讀100M超大體積pdf文獻,使用vivo AI助手展示其顛覆式的能力等,讓用戶對前沿技術實力有了直觀的感受。
元創數智在線注意到,B站也在通過自主研發的AI技術,深入內容創作的核心。
比如,嗶哩嗶哩鳴實驗室以突破性技術,為世界首位中文虛擬歌手洛天依量身定制了AI語音聲庫。通過精妙的算法調校,不僅保留了洛天依聲音的標志性特質,還賦予了其更自然流暢和真實的表達能力,使其能夠輕松應對各種曲風和語言。在洛天依展區《歌行四方》的現場表演中,洛天依就呈現了堪比專業歌手級別的演唱。
此外,必剪Studio作為B自研的音視頻大模型,則能為UP主提供免費生成1:1的真人模型定制服務,它超越了傳統工具的界限,是UP主創作的得力助手。通過輸入文本或錄音,即可生成實拍級效果的出鏡口播視頻。
B站自研的AI動態漫技術,則為漫畫愛好者和創作者打開了新世界的大門。通過圖文引導和動態控制,實現對角色五官、肢體動作、運鏡特效的生成與控制,構建完整的動漫場景,真正實現讓漫畫“動” 起來,大幅降低了內容制作的成本和門檻。
B站自研的大語言模型系列也在此次WAIC大會上首次展出,包括開源的Index-1.9B chat和Index-1.9B character兩個模型。這些模型支持知識問答、文案創作、邏輯推理、代碼生成等多種應用,并能夠根據不同的設定生成具有不同風格的B站屬性內容。
高通:打造智能終端新未來
高通公司此次是連續第七年參加大會。今年,其通過多場會議論壇分享自身在人工智能領域取得的創新成果,以及對于人工智能產業發展的新思考。
回顧生成式AI的發展,大語言模型(LLM)為純文本訓練模型帶來了出色的能力,而能夠支持文本、圖片等不同信息形式的模型可以更全面地理解世界,多模態AI將成為終端側生成式AI未來發展的關鍵技術范例。
大會現場,基于第三代驍龍8移動平臺的強大AI能力,高通帶來了首個在Android智能手機上運行的大語言和視覺助理大模型(LLaVa)技術演示。具有語言理解和視覺理解能力的多模態大模型能夠賦能諸多用例,例如識別和討論復雜的視覺圖案、物體和場景,并且增強了隱私、可靠性、個性化和成本優勢。
在生成式AI向終端設備規模化擴展的過程中,智能手機有望成為發展最快的領域之一。目前,第三代驍龍8已助力眾多領先智能手機廠商推出出色的產品,為用戶帶來了豐富的終端側生成式AI用例和體驗。高通公司在現場也展示了來自合作伙伴榮耀、vivo和小米的最新Android旗艦智能手機。
不僅是智能手機,高通公司還在引領AI PC體驗的發展。專為AI PC打造的驍龍X Elite平臺擁有面向筆記本電腦的NPU和異構計算,算力高達45TOPS,能夠實現高性能、低功耗AI運算,助力打造智能的個性化體驗,帶來諸多突破性的AI PC新特性。現場,高通公司展示了驍龍X Elite終端上的創新AI用例——剪映AI視頻編輯功能。抖音集團基于ByteNN充分發揮了驍龍X Elite平臺的NPU強大算力,實現了AI視頻編輯性能和能效的大幅提升,彰顯了驍龍平臺行業標桿性的終端側AI性能。
生成式AI的興起帶來了新應用、新形態和新場景,不僅為AI技術的普及提供了廣闊的空間,引領人工智能進入全新的發展階段,同時也為各個行業帶來了巨大的商業價值。
高通公司中國區董事長孟樸在大會首日的產業發展主論壇上表示:“終端側AI將成為推動生成式AI規模化擴展的關鍵所在。高通長期致力于推動終端側AI的創新,并與行業生態建立了廣泛合作,共同將創新成果轉化為極具實用性的應用和體驗。”
根據麥肯錫的研究報告,在全球范圍內,生成式AI技術每年將實現2.6萬億至4.4萬億美元的總體經濟效益增長。從這個意義上看,近年來各類大模型的推出以及AI在云端、邊緣和終端側的廣泛應用,再加上5G的飛速發展,蘊含著豐富的發展機遇。高通方面表示,展望未來,其將繼續推動AI、5G等技術的發展,并為更廣泛的產業合作伙伴提供領先、全面的解決方案,共同推動各類創新技術在眾多行業的落地應用,助力開啟萬物智能互聯的美好未來。
中國移動:發布移動云智算產品體系
7月4日,在大會產業發展主論壇上,中國移動董事長楊杰作了題為《點燃“人工智能+”引擎,共促新質生產力發展》的主題演講。他表示,當前,以AI大模型為代表的通用人工智能取得突破性進展,創新迭代速度、資源投入力度、社會參與廣度都遠超預期,未來發展孕育無限可能。
楊杰坦言,以“AI+”推動新質生產力發展成為信息通信業的時代重任。信息通信業作為戰略性、基礎性、先導性行業,既是形成新質生產力的重要領域,也為其他領域培育發展新質生產力提供重要支撐。下一步中國移動將推進“AI+”作為重要戰略著力點,圍繞基礎設施創新、關鍵技術創新、產品應用創新“三個方向”,促進“AI+”煥新向實,培育發展新質生產力。
此次大會期間,中國移動發布了移動云智算產品體系,面向全社會提供從智算資源到模型服務的全棧智算產品,加快產業智能化升級。
中國移動從算力資源、平臺工具、模型服務多方面展示了移動云智算產品體系能力,后者依托“天穹算網大腦”編排調度全域資源、九天千億參數模型深度調優和海量國產化算力布局,提供包含算力、工具、生態三部分產品能力。
據悉,中國移動發揮算網資源優勢,提供澎湃算力、海量存儲、極致網絡,實現智算資源一點接入。依托中國移動萬卡、千卡智算中心,通過彈性資源管理、異步容錯、異構管控等技術能力,為模型構建提供全網調度、開箱即用、異構融合、極致算力利用率的國產算力服務。依據場景通過算網大腦自動編排服務和資源,同時滿足高資源利用率、低成本、多端業務等多樣化需求。
據了解,目前移動云智算產品已為教育、能源、互聯網等行業提供算力、工具服務,助力快速完成大模型構建,進行業務系統智能化升級。后續中國移動將持續優化智算產品布局,助力更多企業實現智能化轉型升級,共同推動人工智能技術的發展和應用。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.