在劉沛的構想里,一場汽車發布會的拍攝、剪輯、發布可能要一兩個小時,但現在,有了AI,就只需要幾分鐘的時間。
傳統的人力編輯團隊被智能化、自動化的機器識別代替,以前要幾個鐘頭的工程現在幾十秒就可以搞定。
這是AI發展的魅力,也是他所看到人工智能走向未來的潛力。
2024年,劉沛離開做了二十年的傳統門戶網站——中關村在線,來到視頻類垂直媒體30秒懂車做技術總監,操手AI業務。
一個月前,他帶領設計的基于視頻自動生成主題、大綱和圖片的產品已經全面嵌入30秒懂車的多媒體平臺矩陣。
用戶不再需要開盲盒式地瀏覽整個視頻,只要在自動生成的主題大綱里挑選自己感興趣的內容跳轉播放,就可以了解自己感興趣的信息。
這款功能上線后,視頻完播率和用戶反饋都有了跳躍式的提升。
▋ 01 初識AI
劉沛第一次接觸AI,在2022年,那個時候他在中關村在線擔任CTO。因為項目研發需要,他們開始用人工智能提高工作效率。
兩年前,沒有多少人系統接受過專業的人工智能訓練,都是聽到業內的人說好用,便一窩蜂地去國內外找開源模型,去Google檢索教程和學習資料。
劉沛也一樣,他唯一的一點基礎就是大學時在網絡部待了幾年,學到了一些計算機的皮毛,趁熱打鐵去考了國家程序員證書,在畢業后從事了將近20年網站開發。
劉沛2001年考取的程序員證書照片
網站開發雖也涉及到專業的編程知識,但和生成式AI的邏輯還是有著質的區別。
網站開發由前端和后端技術構成。前端負責HTML、CSS、JavaScript、數據庫管理和服務器配置等。后端開發者需要設計用戶界面、處理用戶輸入、管理數據存儲和檢索,以及確保網站的安全性和性能。
而生成式AI,是基于機器學習和自然語言處理技術構建的,提供對話式的交互體驗。生成式AI的邏輯更側重于理解語言的上下文、意圖和情感,以及如何生成連貫、相關且準確的回答。
兩年前,大部分企業都還屬于AI領域的門外漢。
劉沛領導的項目需要在各大平臺獲取流量變現。流量獲取就是通過專業內容輸出吸引用戶,然后從外部平臺免費獲取用戶流量。
用戶是被質量吸引來的,這需要批量式的優質內容輸出,但傳統的人工團隊效率太慢,一天僅能產出200-300份專業文案。
幸運的是,開源模型給當時還不擅長AI的企業帶來了更多可能性和機會。
恰逢國內清華智譜開源ChatGLM-6b模型,劉沛和同事不用再人工式批量生產UGC、PGC內容,而是基于知識場景制造海量AIGC內容。
曾經一個團隊一天才能產出200到300份的工作量,在AI的自然語言處理技術加持后,一天就可以直接生成1000份。人力團隊削減到不再需要編輯,只有一個審核,對AIGC作進一步的加工、潤色,保證內容符合倫理規范和法律要求。
在AI的幫助下,劉沛負責的項目從內容生產、流量獲取到最終的商業變現,整個交易額gmv已經過億,純利也超過了百萬。
效率大大提高,成本大大下降,利潤滾滾而來。
劉沛稱,“這是爆炸式的增長。”
這種增長也讓他意識到,一個獨屬于AI的時代,正在緩緩揭開帷幕。
▋ 02 三個人,兩個月,一個項目
2024年,劉沛入職垂直類視頻新媒體30秒懂車,擔任技術總監。
30秒懂車創立于2015年,是一個做專業測評和深度訪談的汽車視頻媒體垂直平臺。
7月份,劉沛和他的團隊突發奇想想做一個項目,基于視頻內容生成主題和關鍵詞,讓用戶一目了然地看到這個視頻講的是什么。
“現在的視頻除了吸引流量的短視頻,通常不會在開頭就給出關鍵信息,而中長視頻標題黨居多,很多用戶看了十來分鐘也沒有找到感興趣的片段,便悻悻然退出,視頻完播率較低。”
看到這個缺口,劉沛便想,能不能用AI自動生成一段視頻的主旨、大綱,讓受眾直接找到自己喜歡的信息點擊觀看。
就汽車而言,有些用戶想了解車的空間、有些想了解加速度、有些想了解油耗,但受限于視頻的單線程瀏覽模式,只能一幀一幀扒,既費時、效率又低。如果開頭不夠引入入勝,不到一分鐘就會點擊退出。有了AI提取關鍵信息,用戶可迅速瀏覽文本關鍵詞精準定位每輛汽車的性能、細節、信息。
說干就干,劉沛和團隊立刻匯報給CEO,開始立項。
但實際上手這個項目的除了UI設計也就三個人。
一個前端,一個后端,加上劉沛綜合指導。
項目分為三步走,第一步是準備海量的AI可識別的素材。給AI的素材準確度越高,描述越清楚,AI識別能力就越強、反饋質量也更佳。
第二步是AI的交互過程。交互不是一蹴而就的,而是一個不斷逼近、迭代,然后生成答案的過程。尤其是針對汽車行業里的一些專業知識,需要針對性地訓練、部署,讓模型能夠更好地提煉出關鍵信息,生成優質的主題大綱。
第三步主要是后端的工作。為了使模型生成的答案達到生產級別,后端做了一些后線的算法加工,最終才達到上線效果。
這款基于“圖像OCR、語音識別 + AI大模型推理”的視頻主題提取產品,可依據時間軸精準到秒提取出主旨、大綱、內容甚至匹配的圖片。在AI輔助下,視頻與文本相結合,傳播效率得到了極大的提高。
同時,該應用也可滿足圖像識別、圖形處理、語音識別等批量AIGC需求。
基于AI自動生成的視頻主題大綱
產品雖然優質,但設計研發的過程并非一帆風順。
劉沛的工作,就是對整個產品線實施規劃,及時發現可能存在的bug,修復優化。
比如如何準確高效提取視頻內的字幕就是一大難題。
視頻本身是一幀一幀圖像,提取字幕需要將每一幀上的內容轉換為文本。而字幕又分為軟字幕和硬字幕,硬字幕本身已經和圖片嵌合在一起,要提取難度更大。沒有字幕的視頻,就需要通過音頻語音識別,從視頻到音頻再到文本進行三種格式的轉化。
為了解決這個難點,劉沛和團隊分析了上千份影視內容,從顏色、大小、字體、格式等維度不斷提煉字幕關鍵信息,與AI模型進行交互。同時優化算法以提高字幕識別能力和最終結果的反饋質量。
就這樣,歷經重重困難,這個小而美的三人團隊花了兩個月就把產品做到了生產級別,解決了用戶瀏覽中長視頻的一大痛點。
這是國內目前首個基于“圖像OCR、語音識別 + AI大模型推理”搭建的垂類視頻主題提取產品。在這之前,百度雖然也研發了類似功能,但提取內容過于抽象,并不能聚焦于具體的細節、功能、數據,提供有價值的信息。
功能一經上線,就獲得了業內和用戶的極佳反饋,視頻完播率和粉絲量都有了顯著提升。
網友評論反饋
在劉沛最有成就感的幾個項目里,技術團隊都是小而精,比如,他被CNET China收購的萬維家電網,最多的時候也就是十個人。
2004年剛立項的時候,只有劉沛和他的愛人。
他們一文一武,一個負責搞技術開發,一個負責商業談判。
從資訊內容到產品庫到商業論壇,整個網站的內容都由劉沛一個人搭建。而找客戶、談合作則是他的妻子全權負責。
三年后,萬維家電網的商業價值被當時CNET中國高級副總裁、ZOL總經理劉小東看見,一舉收購進CNET中國集團,成為CONSUMER GROUP中的一員。
劉沛2004年創立的萬維家電網
劉沛坦言,這段從零到一的創業經歷仿佛奠基了他未來的職業生涯。
從那以后,他的思維開始從開發者模式轉向商人模式。他開始從用戶視角看待問題,去看現在市場亟需什么、用戶的痛點在哪。
這同樣也是AI爆發時代企業存活的關鍵點,即把AI嵌入到具體的場景之中。
▋ 03 一個實用的AI拿來主義者
劉沛學習AI的動力來源于每一種業務場景的需要。
當我問到“您如何看待AI和人的關系”的時候,
劉沛的回答言簡意賅:“拿來用。”
他稱自己為一個實用的AI拿來主義者。
在他看來,AI可萬物,AI可以跟硬件結合,成為馬斯克眼前能抓、能識別物體、能交流的人形機器人。AI可跟軟件結合,衍生出各種各樣的文生文、文生圖、文生視頻應用。
AI的魅力實際不來自于AI本身,而是它多大程度上能夠為人所用、為人造福。
在生成式AI興起的一年內,人工智能走向生物科學、應用心理、天體物理、圖文創作、視頻剪輯……
2022年,DeepMind旗下的AlphaFold成功預測了蛋白質的3D結構,并且設計出具有特定功能的新型蛋白質,在新藥和疫苗研發領域功不可沒。聊天機器人Woebot利用生成式AI提供心理支持,通過 “復制” 患者與心理醫生之間的 “治療聯系”幫助用戶減輕焦慮和抑郁癥狀,為沒有錢付高昂咨詢費的群體提供了心靈休憩的場所。
在藝術創作領域,Midjourney可以根據文本提示詞生成風格多樣、精美細膩的藝術作品,海報宣發的制作時間大大節省。Adobe的Sensei平臺通過生成式AI自動化視頻剪輯,分析視頻內容,即使是什么都不懂的藝術小白也可生成轉場酷炫的視頻。
AI就像有無數只觸角,蔓延到人類社會每一個具體可感的角落與場景。
這也是劉沛所堅持的,將AI與具體的垂類業務場景相結合。
創過業、當過總經理,劉沛最常做的還是CTO,據他說,支撐他的是一種新鮮感和成就感。
從自己創業的萬維家電網到待了七年的大型IT網站中關村在線、再到現在的垂直汽車新媒體30s懂車,他最喜歡一個項目結束時的喜悅。看著業務從靈感涌現到項目搭建到商業變現,一路走來,每個地方都有自己的身影,他就感到滿足。
這種滿足感同時也來自于他為社會創造了更大的價值。
當然,AI也不例外,無論如何發展,最關鍵的都是要跟市場和用戶需求結合,這將是一個企業和產品屹立不倒的最終護城河。
劉沛:2002年畢業于鄭州大學,擁有超過20年的IT行業經驗。他曾在北京普信網、中關村在線、新浪網無線部門、中國移動12580和139社區等知名企業擔任要職,涉及技術管理、項目管理等多個領域。2004年,劉沛創辦了萬維家電網并擔任總經理,后被中關村在線收購。2013年至2023年,他先后擔任萊富特佰(手機中國)CTO和中關村在線CTO。2024年,劉沛加入30秒懂車,擔任技術總監,繼續在技術領域發揮其專業才能。
采訪實錄
劉沛,您好,我是碼客人生
幸會,我是劉沛。
碼客人生:您在學生時代學的是什么專業,為什么之后就進入了資訊整合這樣一個行業?
我在大學學的是工程裝備與控制,這個是比較偏機械類的一個專業。當時在學校有自學考了國家程序員認證,然后在學校網絡部有做一些實習,所以畢業之后一脈相承就做了網站相關的開發的工作。
碼客人生:在您大概就20年的職業生涯中,哪一個項目是讓你最有成就感的?
中間我有自己創業做過一個家電資訊網站,整個從規劃開發到商業變現,實際上都主要是自己在全程參與,后面也成功被當時的CNET China收購了。雖然標的不大,但可以說是一個很完整的體驗,我覺得應該算是自己比較成功、比較深刻的一個項目。
碼客人生:在這個過程中有沒有遇到過什么比較大的困難?
技術上沒有什么困難。因為我之前有做過類似的工作,從資訊內容到產品庫到論壇、商家體系都是自己一個人開發的,基本上沒有遇到什么困難。當時的困難更多來自于商業變現,最開始創業的時候,更多是開發者思維,對商業模式思考比較少。網站運營到一定階段之后,商業變現是一個最大的挑戰方式。不過這一塊我愛人比肩擅長,就是愛人在做。
碼客人生:您最早接觸AI是在多久?
2021中關村在線CPS項目,當時需要批量地生產知識場景內容吸引用戶流量變現,就了解了一些NLP技術生成AIGC內容,主要是用的清華智譜開源ChatGLM-6b模型。用了AI后,一天可以生成1000份相關文案,遠高于人工團隊一天200份。人工削減到只需要一個審核做基礎審查。最后,從內容生產、流量獲取到最終的商業變現,CPS項目整個交易額gmv已經過億,純利也超過了百萬。
碼客人生:您上手AI大概用了多久?會系統學習嗎?
我們是拿來主義,就是先用。因為AI開源出來的話,會有一些demo。我們可能從最基礎的就是說然后就是說針對我們業務場景,比如說哪個地方再需要優化一下,或者是怎么需要把這個算法再加強一下,就是在這個過程里不斷學習。在應用場景里面先跑起來,然后邊跑邊迭代邊優化,然后再遇到新的問題,可能又需要另外一個模型或者另外一個技術來寫作的時候,再去學習這么一個過程。這里不是大學里面,你比如說你學了幾年之后在畢業班了,然后怎么著了,再做個項目驗證,不是這個邏輯。
碼客人生:為什么會選擇在從業二十年后進入AI領域?
也是一個自然而然的過程,從21年CPS項目接觸到AI后就開始用人工智能解決一些實際場景的問題,加上現在短視頻成為一個主流的傳播方式,“視頻+AI”在未來是極具潛力的。
但是原來傳統的視頻的這樣的一個閱讀模式的話,需要用戶看完才知道信息點在哪里。所以我發現有用戶有這樣的一個需求,我就想怎么樣,把這個視頻內容的主題提煉出來。這樣的話用戶的話只要他哪個地方感興趣,或者是那個地方他看完了,他覺得很重要,他一看完一遍他沒記住,他便可以自己跳轉回來瀏覽。
他能快速定位到他感興趣想要看的內容,有這種基于這樣的一個用戶的一個需求,然后結合我們的業務場景,所以我們就立項了這么一個項目。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.