作者 | summer
郵箱 | huangxiaoyi@pingwest.com
隨著AI競爭加劇,消費市場成為各大科技公司的必爭之地。在文心一言、豆包、Kimi等產(chǎn)品瘋狂爭奪C端用戶的當(dāng)下,如何打開AI消費市場,成為阿里巴巴的緊迫課題。
2月6日,多家媒體消息稱,人工智能科學(xué)家許主洪教授(Steven Hoi)正式加入阿里巴巴,將出任集團副總裁。據(jù)內(nèi)部人士透露,許主洪教授將專注于AI To C業(yè)務(wù)的多模態(tài)基礎(chǔ)模型及Agents相關(guān)基礎(chǔ)研究與應(yīng)用解決方案,提升阿里巴巴AI應(yīng)用C端產(chǎn)品在模型結(jié)合應(yīng)用上的端到端閉環(huán)能力。
稍后,許主洪在X上確認了這一消息,并提到“未來十年,為消費市場開發(fā)基礎(chǔ)模型和 AI Agents應(yīng)用存在大量機會!”
這位技術(shù)大牛的加入,意味著阿里在AI To C的又一嘗試。
自去年底阿里巴巴“少壯派”吳嘉執(zhí)掌智能信息事業(yè)群以來,阿里的AI C端產(chǎn)品開始加速整合:先是將通義系列C端產(chǎn)品從阿里云剝離,隨后又整合了天貓精靈所屬的智能互聯(lián)事業(yè)群;在產(chǎn)品層面,阿里選擇了用戶量已達2億的夸克作為主攻方向,將其重新定位為"AI全能助手",并開始與天貓精靈展開聯(lián)動。據(jù)悉,雙方正在籌備包括AI眼鏡在內(nèi)的AI新產(chǎn)品。
如今技術(shù)人才的引入只是一個開始,進入2025年,阿里AI急需一場面向消費市場的反擊。
1
從Salesforce到阿里,專注多模態(tài)預(yù)訓(xùn)練
作為一位深耕AI領(lǐng)域20余年的研究者,許主洪的學(xué)術(shù)履歷頗為豐富。2002年獲清華大學(xué)計算機系學(xué)士學(xué)位后,他在香港中文大學(xué)完成了碩士和博士學(xué)位。在學(xué)術(shù)界,他于2019年當(dāng)選IEEE Fellow(電氣和電子工程師協(xié)會會士),入選斯坦福"全球前1%AI科學(xué)家"榜單。
許主洪的研究領(lǐng)域覆蓋機器學(xué)習(xí)基礎(chǔ)理論及多個應(yīng)用方向,包括多媒體信息檢索、計算機視覺、大數(shù)據(jù)分析等。其中,他在多模態(tài)預(yù)訓(xùn)練方面的工作獲得了最多關(guān)注,特別是BLIP模型系列的研究成果,發(fā)布在了多個開源社區(qū)。
BLIP系列有多篇論文,研究聚焦于視覺-語言多模態(tài)預(yù)訓(xùn)練(Vision-Language Pre-training, VLP),旨在通過統(tǒng)一模型架構(gòu)和高效數(shù)據(jù)增強策略,實現(xiàn)視覺語言理解與生成任務(wù)的協(xié)同優(yōu)化,可以應(yīng)用于圖像-文本檢索、圖像標(biāo)題生成、視覺問答、視覺推理和視覺對話等多種任務(wù)。
在Github社區(qū),BLIP獲得了5000顆星,而BLIP2則是直接點爆了當(dāng)年的圖文模型圈,獲得業(yè)界高度評價,并被認為是多模態(tài)啟發(fā)性工作,對開源社區(qū)做出了顯著貢獻。此外,據(jù)許主洪在X稱,BLIP-2還被排名為the 5 top AI Research paper of 2023,僅次于GPT-4。
《BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models》也是許主洪參與的引用量最高的工作,具體來看,通過創(chuàng)新的"凍結(jié)模型+輕量橋接"策略,以Q-Former架構(gòu)對齊了圖像和文本,在保持高性能的同時大幅降低了計算成本。
這些研究大多完成于他在Salesforce期間。在Salesforce,許主洪參與了多個AI研究項目,并嘗試將研究成果轉(zhuǎn)化為應(yīng)用產(chǎn)品。
在離開Salesforce,加入阿里巴巴之前,許主洪還有一段創(chuàng)業(yè)經(jīng)歷,于2023年創(chuàng)立了一家多模態(tài)生成式AI初創(chuàng)公司HyperGAI并擔(dān)任CEO,發(fā)布了三款開源多模態(tài)大模型。其中,開源多模態(tài)模型Hyper-Pretrained Transformers (HPT) 1.5 Edge 能夠?qū)崿F(xiàn)文本和視覺輸入的多模態(tài)理解,專為邊緣和移動設(shè)備量身定制,參數(shù)小于 5B。
不過,在競爭激烈的AI創(chuàng)業(yè)市場中,HyperGAI的產(chǎn)品未能獲得市場反響,其開源模型在Huggingface平臺上少有人關(guān)注。
從總體來看,多模態(tài)研究和橫跨學(xué)術(shù)、產(chǎn)業(yè)、創(chuàng)業(yè),是許主洪兩個關(guān)鍵詞。
1
重組、融合、創(chuàng)新,阿里AI to C需要新牌
在多模態(tài)AI成為技術(shù)競爭焦點的當(dāng)下,我們不難理解:在發(fā)力To C的關(guān)鍵時刻,阿里恰好需要這樣一位既能突破算法邊界、又能推動產(chǎn)品創(chuàng)新的科學(xué)家。
在過去一段時間里,阿里AI To C產(chǎn)品中,除夸克以外,其他AI產(chǎn)品包括通義APP本身在C端的表現(xiàn)并不突出。也正是因此,目前的阿里正在通過整合通義、夸克等產(chǎn)品力量,配以頂尖人才加持,打造一個更具競爭力的AI To C新生態(tài)。
首先是在模型與應(yīng)用的關(guān)系上,阿里經(jīng)過一年多的探索后逐漸明確了"分而治之"的策略,讓基礎(chǔ)模型研發(fā)和消費級應(yīng)用各自獨立發(fā)展,以適應(yīng)不同的創(chuàng)新節(jié)奏。
2024年底,阿里將原屬阿里云的“通義”應(yīng)用剝離出來,并入智能信息事業(yè)群由吳嘉統(tǒng)管,而此前通義千問更多是整體打包的思路,模型和應(yīng)用捆綁發(fā)展。但在實踐中發(fā)現(xiàn),大模型研發(fā)和消費級應(yīng)用分屬不同賽道,各自面臨的挑戰(zhàn)和節(jié)奏都不盡相同,為雙方松綁后通義千問團隊可以專注技術(shù)突破,而C端產(chǎn)品團隊則能更靈活地進行調(diào)整。
此后更多的AI to C整合開始了。特別是天貓精靈所屬的智能互聯(lián)事業(yè)群并入之后,加上原有的夸克、書旗小說、UC瀏覽器等業(yè)務(wù),一條從搜索到內(nèi)容,從文本到語音交互,從軟件到硬件的創(chuàng)新鏈條正在形成。在這條鏈條上,多模態(tài)技術(shù)成為連接各個場景的關(guān)鍵。
許主洪的加入,也恰好印證了阿里的這一技術(shù)布局。作為BLIP系列的參與者,他在多模態(tài)預(yù)訓(xùn)練和效率優(yōu)化方面的積累正是阿里所需要的。從夸克的圖文理解到天貓精靈的視覺交互,再到未來可能推出的AI眼鏡,多模態(tài)交互將成為阿里AI產(chǎn)品的標(biāo)配。
不過,在AI消費市場,先進技術(shù)只是起點,過去一年的市場競爭已經(jīng)證明,真正的難點在于找準(zhǔn)用戶和場景。
對All in AI的阿里巴巴而言,這既是機遇也是挑戰(zhàn)。一方面,阿里擁有龐大的用戶基礎(chǔ)、豐富的應(yīng)用場景和強大的技術(shù)儲備;但另一方面,在To C戰(zhàn)場上,無論是百度的文心一言、百度文庫,還是字節(jié)的豆包,都已形成了一定的用戶心智。
現(xiàn)在的阿里不僅需要新鮮血液,也需要一場勝仗,通過AI重新定義自己在消費互聯(lián)網(wǎng)時代的核心競爭力。
點個“愛心”,再走 吧
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.