站在人工智能技術爆發的節點,趙天成回想起多年前在卡耐基梅隆大學(CMU)求學時收獲的教誨,依然心存感激。導師告訴他,To be a leader, not a follower,做一個勇于嘗試的引領者遠比在風口追隨著他人來得重要。
作為杭州聯匯科技的CEO、首席科學家,這個90后“創二代”正在加速將多模態大模型和智能體,推廣應用于與你我每個人相關的民生領域。
大模型變成攝像頭“大腦”
能幫老板“看店”
聯匯科技位于濱江區互聯網產業園,這里曾是網易、阿里崛起的搖籃,互聯網、物聯網技術從這里走入日常生活。
現在輪到了人工智能。
對一家街邊小店來說,攝像頭除了監控,還有什么作用?聯匯科技說,有了多模態智能體的協助,攝像頭會告訴老板今天來了多少顧客、什么商品最好賣、哪個角落的商品擺放不合理易造成擁堵……相當于給了攝像頭一顆大腦。
所謂的多模態,你可以把它理解為除了文本語言,還有圖像、視頻、音頻等多種模態信息的協同推理;而智能體,指的是能夠自主感知環境、思考,并做出決策、行動的系統,也是眼下許多創業公司最看好的AI應用發展方向。
作為一家多模態大模型公司,在7月初舉行的2024世界人工智能大會上,聯匯科技發布第二代多模態智能體OmAgent;同時,根據應用需求與落地場景的不同,上線空間運營智能體、知識服務智能體兩大系列。
其中,OmAgent分別融合了大模型OmDet V2、OmChat V2的全面感知,以及思考決策能力。后者支持高達512K的上下文長度,能處理視頻、圖文的混合輸入,具有時序關系判斷和多圖關系理解的能力。
時序關系判斷
多圖關系理解
除了幫老板“看店”,再以電力行業為例。“中國現有200萬公里高壓輸電線路,二三十萬座變電站。過去,輸電線路的巡檢主要依賴無人機拍攝的圖像,然后由人工逐張檢查。”趙天成透露,眼下聯匯科技正在和各地電力公司、電科院等機構合作,利用多模態的思考能力,提升圖像缺陷識別準確率,并生成相應解決方案,自動化完成輸電線路的巡檢。
用多模態找到可行的商業化路徑
產品系列中的Om,在梵文里有宇宙源頭之意,智慧的源泉。連同掛在趙天成辦公室里的“創生之柱”畫像(2015年由哈勃望遠鏡拍攝,屬于鷹狀星云的一部分,后者是銀河系中孕育最多恒星的區域之一),代表著他和團隊對AGI(通用人工智能)的希冀和求索。
“有人說兩三年,我覺得樂觀了些,5-10年可能看得到。”他說。而多模態,是通往AGI的必經之路。
雖然技術水平有差距,但這兩年,國內不少大模型公司和OpenAI面臨著同樣的壓力:一邊要拼命奔跑將追趕者甩開,一邊又要尋求將技術轉化為實際商業價值的路徑,在理想和現實中反復拉扯。
趙天成和團隊看上去要從容許多。當行業剛開始關注大語言模型,他們已經堅定地選擇走多模態的方向,并取得工信部大模型檢測的001號證書;去年“百模大戰”打響,他們搶先發布自研OmModel多模態大模型的V3版本,以及國內首批大模型驅動的智能體應用。
目前,聯匯科技多個智能體應用,通過與運營商、國家電網、廣電媒體等企業機構的合作而實現規模化落地,使得他們成為國內為數不多已經找到可行商業化路徑的大模型公司。
要比別人先行一步,甚至是兩三步的這種思維模式和行動力,在很大程度上得益于趙天成過往的求學經歷。
1991年出生的趙天成初中就讀于育才,高中考上了杭二中;在加利福尼亞大學洛杉磯分校(UCLA)的本科階段,雙修電子工程+計算機,以全院第一的成績成為2014級工程學院杰出畢業生;隨后在CMU完成碩博連讀。
“大四那年參與到實驗室的科研工作,當時一起做了一款App,對著它說一句話,它就能通過分析聲音頻率測算胸腔大小,反推你的身高,當時吸引了全校很多同學試用。”在這個過程中,趙天成開始接觸人工智能。他發現,相較于此前最愛的物理,AI為他打開了一扇全新的大門。
回國近4年
仿佛又讀了個博士
2014年,趙天成如愿考入CMU語言技術研究所,研究基于預訓練的端到端的生成式模型,并應用于人機對話系統。在這輪生成式人工智能熱潮中,來自CMU的群星正在閃耀。阿里斥巨資入股的月之暗面創始人楊植麟就是其中的代表。
圖片來源:CMU官網
趙天成的導師里,有CMU人機交互中心的Maxine Eskenazi教授,Louis-Philippe Morency教授則于2018年提出多模態,而AI谷歌首席科學家William W Cohen(楊植麟的博士生導師),也給了他諸多指導……
“這種系統性的訓練,讓我們學會往前看,做5年后才能爆發的技術,而不是在現有技術項目上‘打補丁’。”趙天成用了4年半,便完成了通常需要六七年的博士學業,其間累計發表20多篇頂會論文。
其中,他和導師在2016年發表的《Towards End-to-End Learning for Dialog State Tracking and Management using Deep Reinforcement Learning》(《使用深度強化學習實現對話狀態跟蹤與管理的端到端學習》),是業內最早的一篇端到端人機對話論文,主要論述如何用神經網絡解決整個對話系統的問題,獲得當年的SIGDIAL最佳論文獎。
初到CMU時,主導師Maxine Eskenazi和合作導師Alan Black已開發出全球第一個實用人機交互系統Let’s Go,可以實現打電話詢問公交車信息和訂票的功能。
“之后很多年里,大部分對話類研究基于該系統完成。但它全部靠專家系統模塊組合而成,智能上限低,距離真正的應用還有很大距離。”2017年,AlphaGo戰勝人類頂尖圍棋選手,趙天成意識到,端到端學習有能力改變專家系統拼湊的方式,通過完整的一套學習機制去實現真正的智能體。于是,他們把Let’s Go系統轉成了生成式。
2020年,學成后的趙天成在硅谷短暫創業后,選擇回國接班。父親趙凡創辦于1994年的聯匯科技,是當時國內領先的廣電系統解決方案供應商。兒子決定利用所學來全面升級公司,回國的第一天就開始打磨基礎模型。2021年,聯匯推出首個自研的多模態大模型。
從埋頭做技術,到成為聯匯科技CEO和首席科學家,對于趙天成來說,這是一個適應和轉變新角色的過程。“回國近4年,就好像又讀了一個博士,社會大學的博士”。
對話“新青年”
目前研發團隊有200人左右
九千光年:您在CMU時期研究的生成式對話系統,和現在的ChatGPT等相比,有什么不同?
趙天成:核心原理非常接近,都是自回歸模型預訓練,最主要區別在規模上。比如,我當時訓練的是億級的RNN(循環神經網絡),訓練數據可能是幾千萬個Token(標記),現在可能是百億級、千億級Transformer(基于自注意力機制的深度學習模型),幾萬億個Token。
事實上,從AlphaGo到ChatGPT,近年來人工智能領域的重大突破,開發者基本上是一個圈子里的人。有人留在硅谷,比如去了OpenAI,而我們選擇回國。像是楊植麟,比我小一屆,回國后創辦月之暗面,比我大幾屆的藍振忠回到杭州創立西湖心辰,還有杭州知衣科技的創始人鄭澤宇和溫苗苗夫婦等。
九千光年:公司目前的核心技術團隊,是怎樣一個構成?
趙天成:回國前我曾和CMU的同學在硅谷短暫創業,團隊也跟著一起回來了,又陸續招聘了一些,像是加州大學、浙大、微軟與阿里巴巴等院校和機構的碩博士。目前,浙江大學濱江研究院Om人工智能研究中心差不多有50人,整個研發團隊200人左右。
智能體技術能降低大模型“幻覺”問題
九千光年:您和團隊的技術研發成果眼下更多是在B端落地,會考慮拓展到C端嗎?比方說居家場景,養老就是很大一塊市場。
趙天成:孩子有沒有按時完成暑假作業,老人有沒有準時吃藥……AI看懂并解析畫面后,都可以提醒主人,充當管家角色。
公司現在用B2B2C的方式實現商業化。在我們具備一種能保護數據和隱私安全的計算方式后,我覺得它可以進入千家萬戶。畢竟誰都不希望自己和家人的數據變得完全透明。
九千光年:大模型存在“幻覺”問題,在輸電線路巡檢、店鋪管理等實際應用場景中,如何避免它“胡說八道”?
趙天成:這也是智能體技術至關重要的主要原因之一。理論上講,大模型永遠無法解決“幻覺”問題,只能使用各種手段將概率降到盡可能低。例如,通過整合外部知識庫,或者采用自我校正機制,可以有效減少這種概率。
大模型和智能體技術還在爬坡階段
九千光年:大家都說今年是智能體的元年,技術上它目前處于哪個階段?
趙天成:不管是智能體還是大模型技術,我覺得眼下都還屬于爬坡階段,遠未到頂峰,也沒有所謂的泡沫。過去10年是一個積累過程,現在正要爆發。
九千光年:前陣子GPT-4o發布,不少網友拿著它挑西瓜、榴蓮,多模態真的可以幫助挑選水果嗎?
趙天成:理論上可以。比如人根據形狀、瓜皮顏色、紋路等挑西瓜,那么AI也能根據這些特征進行推理。如果加入聲音模塊,它還能聽拍打的聲音進行辨認。
多模態在生活中的實際應用場景,還有很多。比如你去法國旅游,看不懂菜單,用手機拍下,然后告訴AI:我想吃得清淡點,幫我推薦幾個菜。它就會在看懂菜單的基礎上,根據你的需求給出建議。
九千光年:可以透露近期的技術研發重點嗎?
趙天成:前段時間我們主要專注于突破多模態技術在長視頻理解方面的應用,特別是對復雜空間的多角度捕捉和分析,讓它能更好地理解物理世界。
下半年,我們的精力會集中在增強多模態大模型的推理能力上。一方面可以讓它應對更復雜的任務挑戰,另一方面也可以進一步降低“幻覺”概率。
上陣父子兵
九千光年:您和父親日常會在公司事務上進行交流嗎?包括您從事的技術開發。
趙天成:我父親對技術很了解,對這塊很感興趣,他也比我更懂商業,所以我們平時交流比較多。一個多模態模型開發出來后如何落地,這個其實并不比做算法簡單,甚至更難。
九千光年:這幾年,不少公司到了創業“老將”向二代交棒的時刻,您怎么看傳承這個問題?
趙天成:首先是企業文化的傳承。我覺得自己比較幸運的一點,是聯匯之前就是一家技術驅動的公司,就很容易把它傳承下來。如果把貿易公司轉化為大模型公司,就會擰巴。
但我們這一代的想法和上一代確實存在著一些差異。比如,年輕人可能更有互聯網思維,會將硅谷的一些創新理念帶回來。兩代人初期在觀點上可能有碰撞,但正是這些碰撞和相互適配,會為企業注入新活力。
文 | 童蔚
攝影 | 陳中秋 海報 | 李前芳
VIEW MORE
@不死癌癥“狙擊手” >>
@AI殿堂“門童” >>
@“僅退款”與2萬名無奈的賣家 >>
@云設計“破風手” >>
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.