99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

文檔解析測(cè)試PDF,歡迎挑戰(zhàn)

0
分享至


大家好,我是 Ai 學(xué)習(xí)的老章

最近在看文檔處理方面的模型和工具,準(zhǔn)備寫個(gè)新系列,聚焦大模型文檔處理,記錄模型特性與功能,本地部署,實(shí)際測(cè)試。

我準(zhǔn)備了一個(gè)測(cè)試PDF文檔,其中包括

  • 2張單獨(dú)測(cè)試圖片

  • 3個(gè)圖片形式數(shù)學(xué)公式

  • 1段圖文

圖文中有

  • 3張圖片

  • 2小段+1長(zhǎng)段代碼塊

  • 一二三級(jí)標(biāo)題,加粗、引用、有序列表、無序列表、emoji、行內(nèi)代碼、分割線,下劃線

滿分10分,看看不同測(cè)試對(duì)象把整個(gè)pdf轉(zhuǎn)成markdown可以拿到多少分?(目前測(cè)試字節(jié)的Dolphin,感覺可以拿4分的樣子),具體如下:

測(cè)試圖片1(1分)
測(cè)試圖片2(1分)測(cè)試手寫公式1(1分):測(cè)試印刷公式2(1分)測(cè)試復(fù)雜表格(1分)測(cè)試圖文(5分)

大家好,我是 Ai 學(xué)習(xí)的老章

最近在看文檔處理方面的模型和工具,準(zhǔn)備寫個(gè)新系列,聚焦大模型文檔處理,記錄模型特性與功能,本地部署,實(shí)際測(cè)試。

本文,先看一個(gè)剛剛開源的 OCR 模型——Nanonets-OCR-s

簡(jiǎn)介

這個(gè)模型基于Qwen2.5-VL-3B微調(diào)而來,可以理解輸入文檔(PDF、圖片等)結(jié)構(gòu)和內(nèi)容上下文(如表格、公式、圖像、圖表、水印、復(fù)選框等),輸出智能格式化的Markdown內(nèi)容,可直接供大模型進(jìn)行下游處理。

特性與功能

  • LaTeX 方程識(shí)別:自動(dòng)將數(shù)學(xué)方程和公式轉(zhuǎn)換為正確格式的 LaTeX 語法。它可以區(qū)分內(nèi)聯(lián) ($...$) 和顯示 ($$...$$) 方程

  • 智能圖像描述:使用結(jié)構(gòu)化的標(biāo)簽描述文檔中的圖像,使其易于 LLM 處理。它可以描述各種類型的圖像,包括徽標(biāo)、圖表等,并詳細(xì)說明其內(nèi)容、風(fēng)格和上下文。

  • 簽名檢測(cè)與隔離:從其他文本中識(shí)別并隔離簽名,并將其放在 標(biāo)簽中。這對(duì)于處理法律和商業(yè)文件至關(guān)重要。

  • 水印提取:檢測(cè)并從文檔中提取水印文本,并將其放在 標(biāo)簽中。

  • 智能復(fù)選框處理:將表單中的復(fù)選框和單選按鈕轉(zhuǎn)換為標(biāo)準(zhǔn)化的 Unicode 符號(hào) (?,?,?),以實(shí)現(xiàn)一致且可靠的處理。

  • 復(fù)雜表格提取:準(zhǔn)確地從文檔中提取復(fù)雜表格,并將其轉(zhuǎn)換為 Markdown 和 HTML 表格格式。

安裝部署

模型文件只有不到 8GB


https://modelscope.cn/models/nanonets/Nanonets-OCR-s/files下載模型

pip install modelscope mkdir nanonets-ocr cd nanonets-ocr modelscope download --model nanonets/Nanonets-OCR-s --local_dir .
啟動(dòng) vLLM 服務(wù)器

pip install vllm vllm serve . --model_name nanonets-ocr --port 8000

我不確定最低 vllm 版本,親測(cè) 0.8.5 是不行的,升級(jí)到 0.9.1 后啟動(dòng) ok


模型加載時(shí)飛速的,vllm 內(nèi)部變異和圖優(yōu)化過程 1 分鐘

顯存占用主要是模型權(quán)重和 KV 緩存,差不多 9GB

看到下面這個(gè)就說明啟動(dòng)成功了


使用模型,官方給出了參考代碼(把 localhost:8000 才成實(shí)際運(yùn)行的端口號(hào)即可):

from openai import OpenAI import base64 client = OpenAI(api_key="123", base_url="http://localhost:8000/v1") model = "nanonets/Nanonets-OCR-s" def encode_image(image_path):     with open(image_path, "rb") as image_file:         return base64.b64encode(image_file.read()).decode("utf-8") def ocr_page_with_nanonets_s(img_base64):     response = client.chat.completions.create(         model=model,         messages=[             {                 "role": "user",                 "content": [                     {                         "type": "image_url",                         "image_url": {"url": f"data:image/png;base64,{img_base64}"},                     },                     {                         "type": "text",                         "text": "Extract the text from the above document as if you were reading it naturally. Return the tables in html format. Return the equations in LaTeX representation. If there is an image in the document and image caption is not present, add a small description of the image inside the tag; otherwise, add the image caption inside . Watermarks should be wrapped in brackets. Ex: OFFICIAL COPY . Page numbers should be wrapped in brackets. Ex: 14 or 9/22 . Prefer using ? and ? for check boxes.",                     },                 ],             }         ],         temperature=0.0,         max_tokens=15000     )     return response.choices[0].message.content test_img_path = "/path/to/your/document.jpg" img_base64 = encode_image(test_img_path) print(ocr_page_with_nanonets_s(img_base64))
圖形界面

官方還提供了一個(gè)本地文檔智能工具包——docext:https://github.com/NanoNets/docext

提供三大核心功能:

PDF 及圖片轉(zhuǎn) Markdown 轉(zhuǎn)換:通過智能內(nèi)容識(shí)別將文檔轉(zhuǎn)化為結(jié)構(gòu)化 Markdown,支持 LaTeX 公式、簽名、水印、表格及語義標(biāo)簽處理。
文檔信息提取:無需 OCR 技術(shù)即可從發(fā)票、護(hù)照等各類文檔中提取結(jié)構(gòu)化信息(字段、表格等),并提供置信度評(píng)分。
智能文檔處理排行榜:一個(gè)綜合性基準(zhǔn)測(cè)試平臺(tái),用于追蹤和評(píng)估視覺語言模型在 OCR、關(guān)鍵信息提取 (KIE)、文檔分類、表格提取等智能文檔處理任務(wù)中的性能表現(xiàn)。
One More Thing
  1. 模型基于 Qwen2.5-VL-3B-Instruct,完全可以商用,免費(fèi)。

  2. 7b 版本正在路上

  3. 這家公司蠻有意思的,它還做過一個(gè)用大模型改寫簡(jiǎn)歷的工具:https://resume.nanonets.com/

制作不易,如果這篇文章覺得對(duì)你有用,可否點(diǎn)個(gè)關(guān)注。給我個(gè)三連擊:點(diǎn)贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個(gè),謝謝你看我的文章,我們下篇再見!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
長(zhǎng)沙男子下載APP開網(wǎng)店“進(jìn)貨”近55萬元后無法提現(xiàn),警方已立案

長(zhǎng)沙男子下載APP開網(wǎng)店“進(jìn)貨”近55萬元后無法提現(xiàn),警方已立案

澎湃新聞
2025-06-27 20:52:30
瘋狂!C羅新合同曝光:日薪480萬元 2年入賬50億元 體壇史上最貴

瘋狂!C羅新合同曝光:日薪480萬元 2年入賬50億元 體壇史上最貴

風(fēng)過鄉(xiāng)
2025-06-27 06:58:56
滅了三大文明古國(guó)的雅利安人,前來華夏挑釁,被商朝扔進(jìn)了殉葬坑

滅了三大文明古國(guó)的雅利安人,前來華夏挑釁,被商朝扔進(jìn)了殉葬坑

文史道
2024-05-27 06:45:02
9.5分封神!BBC新劇,懸疑天花板,阿加莎新作視覺化!

9.5分封神!BBC新劇,懸疑天花板,阿加莎新作視覺化!

君笙的拂兮
2025-06-27 10:50:24
西媒:阿隆索終于在皇馬啟用352陣型,這是他在德國(guó)時(shí)的法寶

西媒:阿隆索終于在皇馬啟用352陣型,這是他在德國(guó)時(shí)的法寶

雷速體育
2025-06-27 11:55:23
交了35000元準(zhǔn)備種牙,當(dāng)天滿口牙齒就被拔完,廣東一男子牙被拔光后診所卷錢跑路

交了35000元準(zhǔn)備種牙,當(dāng)天滿口牙齒就被拔完,廣東一男子牙被拔光后診所卷錢跑路

極目新聞
2025-06-25 16:43:53
高價(jià)買的Labubu,竟然成了“Lababa”!掉坑掉坑,滬上消費(fèi)者連連掉坑

高價(jià)買的Labubu,竟然成了“Lababa”!掉坑掉坑,滬上消費(fèi)者連連掉坑

新民晚報(bào)
2025-06-27 18:23:30
抗癌網(wǎng)紅“游云”去世,僅37歲,自學(xué)中醫(yī)出名,生前不結(jié)婚不生娃

抗癌網(wǎng)紅“游云”去世,僅37歲,自學(xué)中醫(yī)出名,生前不結(jié)婚不生娃

180視角
2025-06-26 17:35:18
真被中國(guó)預(yù)測(cè)對(duì)了:特朗普撒彌天大謊,話音剛落,以色列又挨揍了

真被中國(guó)預(yù)測(cè)對(duì)了:特朗普撒彌天大謊,話音剛落,以色列又挨揍了

阿離家居
2025-06-27 19:37:26
油價(jià)大降超0.22元/升,7月1日油價(jià)調(diào)整,漲幅大幅回落超260元/噸

油價(jià)大降超0.22元/升,7月1日油價(jià)調(diào)整,漲幅大幅回落超260元/噸

油價(jià)早知道
2025-06-26 09:47:22
微胖女生玩真人CS破防開槍掃射路人,嘴臉爆火后“黑料”被扒又是抑郁癥…

微胖女生玩真人CS破防開槍掃射路人,嘴臉爆火后“黑料”被扒又是抑郁癥…

浪花媽媽
2025-06-24 23:41:41
大連又有一家外資企業(yè)要撤離了,大概150多人,已經(jīng)陸續(xù)在裁員了

大連又有一家外資企業(yè)要撤離了,大概150多人,已經(jīng)陸續(xù)在裁員了

星河也燦爛
2025-06-26 19:45:55
北京市副市長(zhǎng)馬駿任市委常委,曾任北師大校長(zhǎng)

北京市副市長(zhǎng)馬駿任市委常委,曾任北師大校長(zhǎng)

澎湃新聞
2025-06-27 19:48:30
小學(xué)生作文《熱死了》走紅,老師看后直接給滿分:我拜你為師吧!

小學(xué)生作文《熱死了》走紅,老師看后直接給滿分:我拜你為師吧!

深度知局
2025-06-25 00:03:58
不少儲(chǔ)戶“坐不住”了?存款新政迎來4大變化,有存款的人咋辦?

不少儲(chǔ)戶“坐不住”了?存款新政迎來4大變化,有存款的人咋辦?

搬磚營(yíng)Z
2025-06-26 19:42:12
亞洲獨(dú)苗!2-0,49歲小因扎吉發(fā)威:率西亞勁旅晉級(jí)世俱杯16強(qiáng)

亞洲獨(dú)苗!2-0,49歲小因扎吉發(fā)威:率西亞勁旅晉級(jí)世俱杯16強(qiáng)

側(cè)身凌空斬
2025-06-27 10:57:57
烏軍在赫爾松擊沉黑海艦隊(duì)軍艦!空襲俄軍指揮部

烏軍在赫爾松擊沉黑海艦隊(duì)軍艦!空襲俄軍指揮部

項(xiàng)鵬飛
2025-06-26 20:36:32
婚房被小叔子借住2年,我要回時(shí)他說已過戶,我只好撥通110

婚房被小叔子借住2年,我要回時(shí)他說已過戶,我只好撥通110

云姐說情
2025-05-29 16:53:16
上映第7天,《醬園弄》就丟了冠軍,陳思誠新片9小時(shí)票房?jī)H55萬

上映第7天,《醬園弄》就丟了冠軍,陳思誠新片9小時(shí)票房?jī)H55萬

靠譜電影君
2025-06-27 09:46:24
這下俄羅斯應(yīng)該滿意了!北約各國(guó)同意將國(guó)防開支提高至GDP的5%!

這下俄羅斯應(yīng)該滿意了!北約各國(guó)同意將國(guó)防開支提高至GDP的5%!

翻開歷史和現(xiàn)實(shí)
2025-06-27 01:00:12
2025-06-27 21:48:49
機(jī)器學(xué)習(xí)與Python社區(qū) incentive-icons
機(jī)器學(xué)習(xí)與Python社區(qū)
機(jī)器學(xué)習(xí)算法與Python
3014文章數(shù) 11024關(guān)注度
往期回顧 全部

科技要聞

雷軍:小米汽車成功沒靠營(yíng)銷,靠的是能力

頭條要聞

美國(guó)打擊伊朗核設(shè)施后 美軍一將領(lǐng)進(jìn)入特朗普核心圈

頭條要聞

美國(guó)打擊伊朗核設(shè)施后 美軍一將領(lǐng)進(jìn)入特朗普核心圈

體育要聞

曼城“庫里”連線,送尤文晚安好夢(mèng)

娛樂要聞

炸裂!榜一大姐深夜怒錘頂流

財(cái)經(jīng)要聞

合新鐵路建設(shè)材料以次充好 多家單位被罰

汽車要聞

配置升級(jí)/貴賓座椅 全新GL8陸上公務(wù)艙售22.99萬

態(tài)度原創(chuàng)

游戲
本地
家居
房產(chǎn)
公開課

英雄聯(lián)盟新英雄蕓阿娜模型圖 溫泉皮有“玉足”

本地新聞

被貴妃帶火的“唐代頂流”,如今怎么不火了

家居要聞

明亮寬敞 空間合理安排

房產(chǎn)要聞

最強(qiáng)黑馬殺出!海南這些區(qū)域,教育正悄悄崛起!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 吴川市| 墨竹工卡县| 茶陵县| 望奎县| 衡阳市| 临桂县| 信宜市| 荔浦县| 天等县| 嘉义市| 东乡| 二手房| 博客| 东城区| 叶城县| 日喀则市| 四川省| 阳东县| 小金县| 肇庆市| 漠河县| 蚌埠市| 扎鲁特旗| 丰原市| 会理县| 沾化县| 临汾市| 青川县| 安溪县| 临泽县| 遂宁市| 双城市| 武穴市| 保德县| 丹江口市| 桐庐县| 泸水县| 姜堰市| 白河县| 余姚市| 邛崃市|