文|孫靜
01
AI效率工具來到寒武紀
1993年,深度學習歷史上激蕩人心的一幕出現了。
在美國新澤西州的霍姆德爾貝爾實驗室里,機器學習成功識別出了一串手寫數字——201-949-4038。這是貝爾實驗室研究員、卷積神經網絡之父楊立昆(Yann LeCun)的辦公電話號碼。
貝爾實驗室當年進行的手寫數字機器識別測試
借助卷積神經網絡在光學字符識別(OCR)上的突出能力,手寫文字識別系統很快在美國郵政系統、銀行等領域落地。無論是字跡潦草的信件,還是個性化的手寫支票,通過掃描儀,機器都能很快識別,且速度、準確率驚人。
一個從圖像中提取文本的「掃一掃」,推開了人類效率升級之門。自此,人工智能技術的每一次重大進步,幾乎都伴隨著AI識別工具能力邊界的突破。
這些突破或讓我們節約更多時間,或讓信息更易于獲取和傳播。歸其一點,解放生產力。尤其在當下這個被科技按下加速鍵的時代,「無效率,不自由」正成為眾多個體需要面對的現實。
以主導當前科技進程的生成式AI浪潮為例,據高盛研報測算,在生成式AI發展的10年內,每年可以將生產力提高超1.5%。最為顯著的一點,技術正讓諸如文檔數字化、文本識別類功能變得更為強大,AI類效率工具開始進入一個寒武紀——
今年8月,Meta AI推出開源的OCR神器Nougat,針對學術領域數學公式難以轉到PDF等痛點,提供解決方案。
這項服務堪稱學術黨的福音。作為使用頻次第二高的便攜式文檔格式,PDF承載了2.4%的信息量。但在處理科研論文等專業性材料時,遇到復雜的數學公式,PDF會經常出現識別出錯、信息丟失的情況。而Nougat基于Transformer的模型,研發了具有理解復雜科學文檔并將其轉換為結構化標記語言能力的靈活工具,方便教育人士、科研工作者有效訪問和處理學術論文。
對了,Nougat與楊立昆也有一定關聯。作為Meta首席科學家,楊立昆正是Meta AI的靈魂人物之一。
一年前還被Open AI打得措手不及的谷歌,則在新近發布的AI大模型Gemini上展示了多模態能力在文本識別上的驚艷表現。公開演示中,Gemini甚至不用從圖像中提取文本,就能直接進行OCR處理,包括識別凌亂的手寫文本。例如Gemini直接識別和計算幾何圖形,輔助學生做數學作業。
在國內,大模型加持下的AI識別也在加速與效率工具的融合,如掃描、修圖等應用場景中都有一批工具類神器冒頭兒,比如剛剛晉升為「阿里四小龍」之一的夸克。自從今年11月升級為阿里集團四大戰略級創新業務之后,夸克的動作布局格外受外界關注。而在夸克旗下產品中,掃描是AI識別落地的主要場景,也是近期動作頻頻的一個業務。
在今年8月率先在掃描行業落地大模式技術應用之后,近日夸克掃描王又宣布全新升級,增加原圖文檔化編輯、圖像智能修復、紙質表格轉化為Excel并可在線計數等信息服務能力。
這意味著用戶與文本的信息交互方式進一步被延展。
02
智能辦公還能怎么卷?
今年年初,高盛首席軟件分析師Kash Rangan的團隊提出過一個觀點——辦公工具的變革將成為生成式AI最廣泛的應用。
截至目前,全面接入GPT-4的Office全家桶——Microsoft 365 Copilot僅對部分企業客戶開放預購,因為其入門門檻很高——30美元/每月、300個賬戶起訂。這意味著,大部分打工人暫時無法直接體驗到AI對辦公效率的提升。尤其國內用戶,不確定性更大。
事實上,今年以來,包括Microsoft 365 Copilot在內,很多大型辦公協作產品的王炸效果均停留在演示或測試階段,不過我們仍可以透過夸克掃描王這類辦公學習「小組件」的升級迭代方向,管窺AI對辦公領域的改造進程,或者說,看看辦公效率還能怎么卷。
如果僅看OCR識別功能,大廠產品如Office lens、Google Lens、微信、QQ、iPhone備忘錄等,都有內置免費服務,能滿足最基礎的掃描需求;而專用工具的優勢則在于產品功能更加細分、解決的個性化痛點更多,信息服務能力相對更為全能。
當然在研究一款產品的升級路徑之前,有必要先看其用戶定位。大學生、年輕白領的定位,直接影響AI技術在夸克掃描王這個產品上的輻射方向。
在夸克掃描王的智能化升級中,最吸引我們的有以下三點——
一是屏幕掃描提取轉PDF功能:在許多會議場景中,為了記錄現場投屏的PPT內容,參會者要對著屏幕一頓狂拍,但以照片形式存在的信息,如果不及時整理,很容易躺在相冊里吃灰,就像書架上那些從未拆封的書籍,它們的存在只能證明我們有一瞬間是想要進取的。不易讀取的文本方式,間接增加了信息分享的難度。
升級后的夸克掃描王則提供了一種新的體驗——用戶隨手拍屏幕并上傳,便可生成完整的會議記錄文件,也可以選擇導出PDF,然后一鍵轉發。這個過程中,軟件會自動裁剪PPT,去除摩爾紋、人頭遮擋等信息「雜質」。
二是表格掃描提取轉Excel、文檔掃描提取轉Word:前者是紙質表格直接拍照,一鍵生成Excel,手寫數字也能精準識別;后者不僅能多頁連續掃描,還可以在掃描圖片上對文字內容、字體樣式進行編輯和修改,且自動識別手寫字跡、復雜數學公式。
這兩個功能都對應著清晰的應用場景:紙質表格轉Excel可以幫助采購、財務等整理進貨單據;圖片文字識別,可用于重要文獻、書籍的資料整理;掃描件再編輯功能衍生出來的「去水印」、「加水印」可用于修圖;「去手寫」則可讓學生重復利用舊試卷,做知識點的鞏固練習;「電子簽名」則能直接應用于商務合同簽約。
三是重要紙質材料的電子化、自動分類整理。比如發票、病歷、證件、合同等日常經常用到但又容易丟失、損毀或者急需時卻不在手邊的文件。擱以前,這些重要材料如果無法提供,只能重新開具,既耽誤時間又耗費人力;新功能的出現,某種程度上相當于為用戶提供了一個可隨身攜帶的「電子保險柜」。
這些產品功能的升級,離不開夸克大模型的底層支撐。自從搭載全棧自研、千億級參數的夸克大模型后,夸克掃描王開始在AIGC+掃描的路上加速迭代。公開數據顯示,其手寫字符識別與復雜公式識別的準確率均達到 99%的行業最高水準。
在借助AI技術夯實掃描能力、圖像能力、內容識別和版式理解能力矩陣的同時,夸克掃描王的進化也讓我們看到,大模型如何定義新一代的AI識別工具。
傳統掃描行業往往止步于掃描服務,因為其業務內核是「掃描」;但新一代AI識別工具的內核是「信息服務」,掃描后的文檔整理歸類、修改編輯、去手寫、屏幕拍照的去摩爾紋、濾鏡效果優化等,均是圍繞無縫的信息可訪問性進行的能力優化。
通過不斷彌合機器學習與人類理解之間的溝壑,AI識別工具有望成為年輕人學習及工作效率提升的全能助手。
當然這種肉眼可見的效率提升有時會讓人感慨萬千。寫出《故國人民有所思》和《人有病,天知否》兩部重磅作品的作家陳國華,給自己取了「陳徒手」的筆名,因為他在寫作中用到的史料均來自早年間手抄的檔案館資料。從1990年代開始,陳老師一天手抄七八千字,數十年間,積累下數百萬字資料。
如果技術進步更早發生,這個世界所沉淀下來的精神財富的厚度大概會有所不同。
03
無盡擴圈過程中
AI爆款應用拼什么?
回到追求效率的圓心。既然技術演進與效率工具的能力擴張呈正相關,接下來的AI識別工具將會有哪些發展趨勢?
我們認為,其中有一點是明確的,借助多模態,AI識別工具的應用邊界勢必會進一步拓展,亦會創造更多新的用戶需求。
目前業內的一個共識是,多模態AI將是大模型的終極形態。在這一領域,谷歌Gemini來勢洶洶,OpenAI的GPT-4也不甘示弱。通過人工智能巨頭的輪番秀肌肉,我們已然看到即將到來的多模態AI時代,將如何重塑生產力。
具體到AI識別領域,借助多模態能力,文檔圖像智能分析與處理可以更好地處理跨模態信息,將文本、視頻、圖片等不同形式的信息進行融合,從而實現更加全面、深入的信息分析與后續服務。
這意味著只要深度學習持續進化,AI識別工具的進化和擴圈將是無盡的,因為掃描的定義和用戶需求都在不斷更新。
事實上,OCR技術出現之初,人們很難想象這項技術未來會在物流、自動駕駛、財會、教育、辦公等領域產生多么深刻的影響;就像20世紀初出現讀取印刷字符并將其轉換為電報代碼的機器時,人們也無法想象100年后,一款疊滿buff的掃描神器可以有多逆天。
對于效率工具而言,無盡擴圈意味著更多的應用場景、更高的使用頻次、更高的用戶粘性,當然也更有可能成為垂類殺手級應用。
當前業內都在期待大模型領域Super App的出現,但爆款應用的破圈大多有個前提——高頻使用。高頻的抵達路徑只有一個,產品有能提供強大且獨特的用戶價值。
有從硅谷考察歸來的投資人發現,AI技術雖然很重要,但這一輪創新浪潮中,更看重技術與產品的匹配,應用層主要拼的是產品能力。
尤其AI識別工具所處的OCR領域,底層技術都是開源代碼,算法主要是模式識別和特征提取,真正拉開差距的還是產品對用戶人群的定位以及對用戶需求的滿足程度。
比如前述的夸克掃描王——其實對很多人來說,整個夸克產品矩陣都是陌生的,但這個產品在年輕人中擁有極高聲譽,因為其一開始就定位于年輕人的高效掃描AI助手。國內權威第三方數據機構QuestMobile此前調研顯示,夸克掃描王在00后、90后人群占比超過54%,居行業第一。
在年輕群體中的高滲透,理論上會進一步助力產品拓展未來的發展空間,因為大量、多元的用戶行為數據是一款產品提升服務能力和用戶價值的前提。比如夸克掃描王相關負責人在此前接受采訪時曾分享過一些重要的產品發現,比如年輕用戶對于掃描應用的需求近年來呈現出多樣化、個性化與品質化的新趨勢。
不出意外的話,這些探索也將為掃描行業提供新的發展思路。畢竟,這是一個效率為王的時代。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.