99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Doc2X: 高精度高性價比文檔解析神器

0
分享至


引言

在構(gòu)建高質(zhì)量的企業(yè)級的智能問答系統(tǒng)的過程中,如何高效精準(zhǔn)地處理企業(yè)已有的海量文檔是大部分開發(fā)者亟待解決的核心痛點。有了高效精準(zhǔn)的文檔解析能力,才能夠構(gòu)建高質(zhì)量的知識庫和高效的信息檢索系統(tǒng),這樣 LLM 才能給用戶更準(zhǔn)確更全面的回答。

Doc2X 簡介

Doc2X 是一款專為開發(fā)者設(shè)計的強(qiáng)大文檔解析產(chǎn)品。

Doc2X 提供 RESTful API 與 SDK 工具包,支持多種開發(fā)語言與框架,讓您輕松將文檔處理功能嵌入現(xiàn)有系統(tǒng),方便快捷地實現(xiàn)將 PDF、掃描件、圖片等多種格式的文檔精準(zhǔn)轉(zhuǎn)換為 Markdown、LaTeX、HTML、Word 等結(jié)構(gòu)化或半結(jié)構(gòu)化格式的能力。

官網(wǎng):https://noedgeai.com/


強(qiáng)大的功能特性


  • ? 市面上類似的文檔解析產(chǎn)品,絕大部分公式識別做的不好(尤其是行內(nèi)和復(fù)雜公式),而 Doc2X 則處于領(lǐng)先水平;

  • ? Doc2X 對表格識別適配優(yōu)秀,甚至支持識別表格里面的圖片和合并跨頁表格等;

  • ? Doc2X 對于多欄識別的閱讀順序還原效果優(yōu)異;

  • ? Doc2X 適配范圍廣相當(dāng)通用,涵蓋財研報、論文、教輔、專利等等;

  • ? 更具體的效果對比可以參考: Doc2x-v1 競品分析(mathpix、庖丁PDFlux、pix2text、合合信息TextIn、騰訊云大模型知識引擎文檔解析)[2]

友好的操作界面

當(dāng)然,除了提供了快速集成的 API 之外,Doc2X 還提供了友好的操作界面,可以讓你在頁面上快速完成文檔解析,解析完成之后可以對照著原文檔進(jìn)行編輯,確保準(zhǔn)確性。


無縫集成主流工具

Doc2X 已成功接入 FastGPT、CherryStudio、扣子(國內(nèi)版)等知名知識庫和 AI 應(yīng)用構(gòu)建平臺。開發(fā)者可以直接在這些平臺中利用 Doc2X 的強(qiáng)大解析能力,快速搭建和優(yōu)化自己的知識庫應(yīng)用。


Doc2X 解析效果

從 Doc2X 的解析結(jié)果來看,Doc2X PDF 轉(zhuǎn) Markdown 的整體效果是比較出色的,大家可以根據(jù)自己的文檔情況去試用看看效果。

我還是拿《2024少兒編程教育行業(yè)發(fā)展趨勢報告.pdf》這個文檔進(jìn)行解析,相比于 MinerU ,在以下幾方面 Doc2X 做的更出色:

  1. 1. 支持多級標(biāo)題的解析(MinerU 只支持一級標(biāo)題解析);

  1. 2. 表格識別能力比較強(qiáng),圖片中的表格基本準(zhǔn)確識別出來,而且基本沒有錯位(MinerU 存在無法識別或表格錯位問題);

  1. 3. 對于多欄識別的閱讀順序還原效果優(yōu)異(MinerU 對于多欄識別出現(xiàn)了混亂)。


Doc2X API 集成

Doc2X RESTful API 的 Base URL 是 https://v2.doc2x.noedgeai.com,API 調(diào)用流程如下:



Doc2X API 文檔[3]
https://noedgeai.feishu.cn/wiki/Q8QIw3PT7i4QghkhPoecsmSCnG1

接口鑒權(quán)

首先需要獲取到 API Key(類似于sk-xxx),API Key 獲取網(wǎng)址:https://open.noedgeai.com/


獲取之后,在 HTTP 請求頭加入:

Authorization: Bearer sk-xxx
文件預(yù)上傳

推薦使用該接口, 有更快的上傳速度,大文件上傳接口,文件大小<=1GB。

請求示例:

import json import time import requests as rq base_url = "https://v2.doc2x.noedgeai.com" secret = "sk-xxx" def preupload():     url = f"{base_url}/api/v2/parse/preupload"     headers = {         "Authorization": f"Bearer {secret}"     }     res = rq.post(url, headers=headers)     if res.status_code == 200:          data = res.json()         if data["code"] == "success":             return data["data"]         else:             raise Exception(f"get preupload url failed: {data}")     else:         raise Exception(f"get preupload url failed: {res.text}") upload_data = preupload() print(upload_data)

返回示例:

{     "code":"success",     "data":{         "uid":"0192d745-5776-7261-abbd-814df3af3449",         "url":"https://doc2x-pdf.oss-cn-beijing.aliyuncs.com/tmp/0192d745-5776-7261-abbd-814df3af3449.pdf?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=LTAI5tS7hV6uXXVzcpk3EGfX%2F20241029%2Fcn-beijing%2Fs3%2Faws4_request&X-Amz-Date=20241029T075458Z&X-Amz-Expires=600&X-Amz-SignedHeaders=host&X-Amz-Signature=f731ea8fe4efdd7c727c210034bdcf1a63436c74b295db68f9648efdce576a91"     } }

獲取到 url 之后,使用 HTTP PUT 方法上傳文件到返回結(jié)果中的 url 字段,然后使用/api/v2/parse/status 接口輪詢結(jié)果,使用的是阿里云的oss,具體速度取決于您的網(wǎng)速(海外用戶速度可能上傳失敗)。

import json import time import requests as rq base_url = "https://v2.doc2x.noedgeai.com" secret = "sk-xxx" def put_file(path: str, url: str):     withopen(path, "rb") as f:         res = rq.put(url, data=f) # body為文件二進(jìn)制流         if res.status_code != 200:             raise Exception(f"put file failed: {res.text}") defget_status(uid: str):     url = f"{base_url}/api/v2/parse/status?uid={uid}"     headers = {         "Authorization": f"Bearer {secret}"     }     res = rq.get(url, headers=headers)     if res.status_code == 200:         data = res.json()         if data["code"] == "success":             return data["data"]         else:             raise Exception(f"get status failed: {data}")     else:         raise Exception(f"get status failed: {res.text}") url = upload_data["url"] uid = upload_data["uid"] put_file("test.pdf", url) whileTrue:     status_data = get_status(uid)     print(status_data)     if status_data["status"] == "success":         result = status_data["result"]         withopen("result.json", "w") as f:             json.dump(result, f)         break     elif status_data["status"] == "failed":         detail = status_data["detail"]         raise Exception(f"parse failed: {detail}")     elif status_data["status"] == "processing":         # processing         progress = status_data["progress"]         print(f"progress: {progress}")         time.sleep(3)

文件預(yù)上傳流程圖如下:


請求導(dǎo)出文件

通過/api/v2/parse/status 接口輪詢結(jié)果完成之后,需要通過 /api/v2/convert/parse接口觸發(fā)導(dǎo)出文件任務(wù)。

請求示例:

import requests import json url = "https://v2.doc2x.noedgeai.com/api/v2/convert/parse" headers = {     "Authorization": "Bearer sk-xxx",     "Content-Type": "application/json", } data = {     "uid": "01920000-0000-0000-0000-000000000000",     "to": "md",     "formula_mode": "normal",     "filename": "my_markdown.md", } response = requests.post(url, headers=headers, data=json.dumps(data)) print(response.text)

返回示例:

// 進(jìn)行中 {     "code":"success",     "data":{         "status":"processing",         "url":""     } }
導(dǎo)出獲取結(jié)果

通過/api/v2/convert/parse接口觸發(fā)導(dǎo)出文件任務(wù)后,需要通過/api/v2/convert/parse/result接口輪詢導(dǎo)出文件任務(wù)狀態(tài),成功之后會返回文件 URL。

請求示例:

import requests url = 'https://v2.doc2x.noedgeai.com/api/v2/convert/parse/result?uid=01920000-0000-0000-0000-000000000000' headers = {'Authorization': 'Bearer sk-xxx'} response = requests.get(url, headers=headers) print(response.text)

返回示例:

{     "code":"success",     "data":{         "status":"success",         "url":"https://doc2x-backend.s3.cn-north-1.amazonaws.com.cn/objects/01927a3a-eeb0-74f6-a539-ca35916b772e5/convert_tex_none.zip?X-Amz-Algorithm=AWS4-HMACSHA256&X-Amz-Credential=AKIATKXFISLI52PK3HTP%2F20241011%2Fcn-north-1%2Fs3%2Faws4request&X-Amz-Date=20241011075617Z&X-Amz-Expires=300&X-Amz-SignedHeaders=host&&x-id=GetobjectX-Amz-Signature=05bdd04a668e9924c5fd361999728cee35aaefb2087334a403f6ebf5ba93f786f"     } }
下載文件

/api/v2/convert/parse/result接口獲得文件 URL 后就可以通過 HTTP GET 方法請求 URL 來下載文件。

請求示例:

import requests response = requests.get("https://doc2x-backend.s3.cn-north-1.amazonaws.com.cn/objects/01927a3a-eeb0-74f6-a539-ca35916b772e5/convert_tex_none.zip?X-Amz-Algorithm=AWS4-HMACSHA256&X-Amz-Credential=AKIATKXFISLI52PK3HTP%2F20241011%2Fcn-north-1%2Fs3%2Faws4request&X-Amz-Date=20241011075617Z&X-Amz-Expires=300&X-Amz-SignedHeaders=host&&x-id=GetobjectX-Amz-Signature=05bdd04a668e9924c5fd361999728cee35aaefb2087334a403f6ebf5ba93f786f") withopen('downloaded_file.zip', 'wb') as f:     f.write(response.content)
結(jié)語

本文給大家再介紹了一款優(yōu)秀強(qiáng)大的文檔解析產(chǎn)品 - Doc2X,通過實踐表明 Doc2X 確實具有優(yōu)秀的表現(xiàn),可以作為大家在建設(shè)文檔解析系統(tǒng)的候選工具,也期望通過我的介紹能給大家提供更多的選擇和思路。

引用鏈接

[1] Doc2X: https://noedgeai.com/
[2] Doc2x-v1 競品分析(mathpix、庖丁PDFlux、pix2text、合合信息TextIn、騰訊云大模型知識引擎文檔解析): https://noedgeai.feishu.cn/wiki/K1NGwjuuqiI9nukgapEcUAALnLh?from=from_copylink
[3] Doc2X API 文檔: https://noedgeai.feishu.cn/wiki/Q8QIw3PT7i4QghkhPoecsmSCnG1

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
67歲著名演員家中猝逝,死因曝光,晚年凄涼兒子自殺與妻子反目

67歲著名演員家中猝逝,死因曝光,晚年凄涼兒子自殺與妻子反目

開開森森
2025-07-04 08:40:29
央視肖曉琳:退休5個月,在美國兒子家死去,臨終25字遺言太深刻

央視肖曉琳:退休5個月,在美國兒子家死去,臨終25字遺言太深刻

飄飄然的娛樂匯
2025-04-26 22:10:06
淚目!91歲老人被送敬老院,外表淡定滿眼驚恐,她的家不要她了?

淚目!91歲老人被送敬老院,外表淡定滿眼驚恐,她的家不要她了?

瓜哥的動物日記
2025-07-04 16:29:28
特朗普在共和黨人中的支持率創(chuàng)下歷史新高 甚至超過了里根總統(tǒng)任期五個月時的支持率

特朗普在共和黨人中的支持率創(chuàng)下歷史新高 甚至超過了里根總統(tǒng)任期五個月時的支持率

新浪財經(jīng)
2025-07-04 00:23:00
深度科普:四維空間,和三維空間到底有什么區(qū)別?

深度科普:四維空間,和三維空間到底有什么區(qū)別?

宇宙時空
2025-07-04 11:40:13
女優(yōu)辛尤里突曬7個月孕肚!親曝生父真實身份

女優(yōu)辛尤里突曬7個月孕肚!親曝生父真實身份

葫蘆哥愛吐槽
2025-07-03 19:26:26
“7.5末世”倒計時,日本這場集體恐慌有多離譜?

“7.5末世”倒計時,日本這場集體恐慌有多離譜?

牲產(chǎn)隊2024
2025-07-04 18:07:16
曹德旺高估了福耀科技大學(xué),福耀科技大學(xué)高估了王樹國

曹德旺高估了福耀科技大學(xué),福耀科技大學(xué)高估了王樹國

前沿天地
2025-07-04 04:49:01
79年霍英東建廣州白天鵝賓館遇審批難,楊尚昆:我去看望一下葉帥

79年霍英東建廣州白天鵝賓館遇審批難,楊尚昆:我去看望一下葉帥

紅色先驅(qū)
2025-06-28 20:22:06
32歲楊紫轉(zhuǎn)變風(fēng)格,將波點裙帶斷貨,斜劉海造型簡直美神降臨

32歲楊紫轉(zhuǎn)變風(fēng)格,將波點裙帶斷貨,斜劉海造型簡直美神降臨

蓓小西
2025-05-31 08:37:18
妻子走了我只能去女婿家過年,只有女兒在忙活,吃飯時她卻趕我走

妻子走了我只能去女婿家過年,只有女兒在忙活,吃飯時她卻趕我走

第四思維
2025-06-30 12:51:45
中國稀土太子爺?shù)纳菝疑睿?0萬一頓飯,父子聯(lián)手揮霍上百億資產(chǎn)

中國稀土太子爺?shù)纳菝疑睿?0萬一頓飯,父子聯(lián)手揮霍上百億資產(chǎn)

混沌錄
2025-06-27 22:48:15
伊朗,現(xiàn)代人類文明的傷疤

伊朗,現(xiàn)代人類文明的傷疤

老爸講科學(xué)
2025-06-24 23:13:33
楊丞琳李榮浩:還相愛,但只能分開。

楊丞琳李榮浩:還相愛,但只能分開。

美芽
2025-07-02 19:14:45
這是希島あいり(希島愛里)最初也是最后的傳奇共演!

這是希島あいり(希島愛里)最初也是最后的傳奇共演!

孤獨的獨角獸影視
2025-06-09 09:55:15
罕見!他的行長任職資格,上級部門始終未核準(zhǔn)!

罕見!他的行長任職資格,上級部門始終未核準(zhǔn)!

運營商段子手
2025-07-04 09:08:59
為什么說中醫(yī)不科學(xué)?因為有一個巨大的邏輯漏洞,你解釋不清楚

為什么說中醫(yī)不科學(xué)?因為有一個巨大的邏輯漏洞,你解釋不清楚

肯定式教養(yǎng)
2025-06-10 06:56:12
晨意幫忙丨疑似玻璃擦從四十多層高樓墜落,女子被砸傷致右眼摘除!多方發(fā)聲

晨意幫忙丨疑似玻璃擦從四十多層高樓墜落,女子被砸傷致右眼摘除!多方發(fā)聲

瀟湘晨報
2025-07-04 17:38:51
6歲我赤著腳去繼父家,繼父用紅燒肉款待了我,多年后我這樣做

6歲我赤著腳去繼父家,繼父用紅燒肉款待了我,多年后我這樣做

四象八卦
2025-05-09 05:55:58
普京確認(rèn)出席規(guī)格,特朗普也來?一旦9月全赴京,最大輸家將誕生

普京確認(rèn)出席規(guī)格,特朗普也來?一旦9月全赴京,最大輸家將誕生

來科點譜
2025-07-03 16:28:28
2025-07-05 00:11:00
人工智能研究 incentive-icons
人工智能研究
分享深度學(xué)習(xí)、CV、NLP
276文章數(shù) 130關(guān)注度
往期回顧 全部

科技要聞

被雷軍"震驚"后,何小鵬"藏起"G7的戰(zhàn)報

頭條要聞

美媒:特朗普的"大而美"法案讓14億中國人在笑話我們

頭條要聞

美媒:特朗普的"大而美"法案讓14億中國人在笑話我們

體育要聞

體壇最爽打工人:37歲被裁,工資領(lǐng)到72歲

娛樂要聞

李宇春身上的標(biāo)簽?zāi)膫€才是真的?

財經(jīng)要聞

茅臺從3300跌到1700 泡沫破了酒才真香

汽車要聞

重生之拿回銷量 領(lǐng)克10 EM-P搶鮮實拍

態(tài)度原創(chuàng)

本地
手機(jī)
游戲
教育
公開課

本地新聞

建筑地標(biāo)如何成為城市人才匯聚的 “強(qiáng)磁場”?

手機(jī)要聞

澎湃OS 2發(fā)力:安卓16 Beta版已推送,你收到了嗎?

逆水寒又雙叒涼了?周年慶流水直沖前三,萌新扎堆涌入也叫涼了?

教育要聞

@高考生 : 接下來兩個月這些大事要關(guān)注

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 杭州市| 买车| 阳信县| 资中县| 城市| 枣阳市| 恩平市| 和龙市| 苏尼特右旗| 长岭县| 上虞市| 长乐市| 全南县| 平昌县| 长武县| 兴海县| 伊金霍洛旗| 桂东县| 台北市| 板桥市| 平江县| 资兴市| 图们市| 鲁山县| 顺昌县| 崇明县| 海安县| 滦平县| 庆城县| 水城县| 鹿邑县| 忻城县| 长垣县| 南郑县| 北海市| 连江县| 怀仁县| 岗巴县| 廉江市| 融水| 新兴县|