99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AI 爬蟲(chóng)核武器!Crawl4AI 橫空出世,數(shù)據(jù)采集只需一行代碼

0
分享至


大家好,我是 Ai 學(xué)習(xí)的老章

推薦一個(gè)大模型周邊項(xiàng)目

一、項(xiàng)目簡(jiǎn)介

Crawl4AI 是一款專(zhuān)為大語(yǔ)言模型(LLM)和 AI 應(yīng)用設(shè)計(jì)的開(kāi)源網(wǎng)頁(yè)爬蟲(chóng)與數(shù)據(jù)抓取工具。它不僅能高效采集網(wǎng)頁(yè)數(shù)據(jù),還能直接輸出結(jié)構(gòu)化、干凈的 Markdown 內(nèi)容,非常適合用于 RAG(檢索增強(qiáng)生成)、AI 微調(diào)、知識(shí)庫(kù)建設(shè)等場(chǎng)景。

二、核心亮點(diǎn)

  • 為 LLM 優(yōu)化:輸出智能、精煉的 Markdown,極大方便 AI 下游處理。

  • 極速高效:實(shí)時(shí)爬取,速度提升 6 倍,性能與成本兼顧。

  • 靈活瀏覽器控制:支持會(huì)話(huà)管理、代理、定制化 hook,輕松應(yīng)對(duì)反爬與復(fù)雜頁(yè)面。

  • 啟發(fā)式智能抽?。杭上冗M(jìn)算法,減少對(duì)大模型的依賴(lài),提升信息提取效率。

  • 開(kāi)源易部署:無(wú)需 API Key,支持 Docker 與云端部署。

三、安裝與快速上手
  1. 安裝

pip install crawl4ai crawl4ai-setup  # 一鍵配置瀏覽器環(huán)境

如遇瀏覽器相關(guān)問(wèn)題,可手動(dòng)安裝 Playwright:

python -m playwright install --with-deps chromium
  1. Python 快速示例

import asyncio from crawl4ai import * async def main():     async with AsyncWebCrawler() as crawler:         result = await crawler.arun(             url="[https://www.nbcnews.com/business",](https://www.nbcnews.com/business",)         )         print(result.markdown) if __name__ == "__main__":     asyncio.run(main())
  1. 命令行用法

# 基礎(chǔ)爬取并輸出 Markdown crwl [https://www.nbcnews.com/business](https://www.nbcnews.com/business) -o markdown # 深度爬取,BFS 策略,最多 10 頁(yè) crwl [https://docs.crawl4ai.com](https://docs.crawl4ai.com) --deep-crawl bfs --max-pages 10 # 調(diào)用 LLM 按問(wèn)題抽取 crwl [https://www.example.com/products](https://www.example.com/products) -q "提取所有商品價(jià)格"
四、典型應(yīng)用場(chǎng)景

構(gòu)建 AI 知識(shí)庫(kù)、FAQ、企業(yè)內(nèi)網(wǎng)檢索 自動(dòng)化采集新聞、論壇、商品信息 支持自定義抽取策略,適配各類(lèi)結(jié)構(gòu)化/半結(jié)構(gòu)化數(shù)據(jù) 結(jié)合 LLM 做智能問(wèn)答、信息抽取

五、進(jìn)階用法示例

自定義內(nèi)容過(guò)濾與 Markdown 生成

from crawl4ai import AsyncWebCrawler, BrowserConfig, CrawlerRunConfig, CacheMode from crawl4ai.content_filter_strategy import PruningContentFilter from crawl4ai.markdown_generation_strategy import DefaultMarkdownGenerator asyncdef main():     browser_config = BrowserConfig(headless=True, verbose=True)     run_config = CrawlerRunConfig(         cache_mode=CacheMode.ENABLED,         markdown_generator=DefaultMarkdownGenerator(             content_filter=PruningContentFilter(threshold=0.48, threshold_type="fixed", min_word_threshold=0)         )     )     asyncwith AsyncWebCrawler(config=browser_config) as crawler:         result = await crawler.arun(             url="[https://docs.micronaut.io/4.7.6/guide/",](https://docs.micronaut.io/4.7.6/guide/",)             config=run_config         )         print(result.markdown.raw_markdown)

自定義 Schema 結(jié)構(gòu)化抽取

from crawl4ai import AsyncWebCrawler, BrowserConfig, CrawlerRunConfig, CacheMode from crawl4ai.extraction_strategy import JsonCssExtractionStrategy import json asyncdef main():     schema = {         "name": "課程信息",         "baseSelector": "section.charge-methodology .w-tab-content > div",         "fields": [             {"name": "section_title", "selector": "h3.heading-50", "type": "text"},             {"name": "course_name", "selector": ".text-block-93", "type": "text"},             {"name": "course_icon", "selector": ".image-92", "type": "attribute", "attribute": "src"}         ]     }     extraction_strategy = JsonCssExtractionStrategy(schema, verbose=True)     browser_config = BrowserConfig(headless=False, verbose=True)     run_config = CrawlerRunConfig(extraction_strategy=extraction_strategy, cache_mode=CacheMode.BYPASS)     asyncwith AsyncWebCrawler(config=browser_config) as crawler:         result = await crawler.arun(             url="[https://www.kidocode.com/degrees/technology",](https://www.kidocode.com/degrees/technology",)             config=run_config         )         companies = json.loads(result.extracted_content)         print(json.dumps(companies, indent=2))

制作不易,如果這篇文章覺(jué)得對(duì)你有用,可否點(diǎn)個(gè)關(guān)注。給我個(gè)三連擊:點(diǎn)贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個(gè),謝謝你看我的文章,我們下篇再見(jiàn)!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
德國(guó)監(jiān)管部門(mén)裁定森海塞爾阻礙耳機(jī)自由定價(jià),罰款近 600 萬(wàn)歐元

德國(guó)監(jiān)管部門(mén)裁定森海塞爾阻礙耳機(jī)自由定價(jià),罰款近 600 萬(wàn)歐元

IT之家
2025-05-08 15:36:06
許家印為保命全部交代!供出背后三大靠山都是誰(shuí)?

許家印為保命全部交代!供出背后三大靠山都是誰(shuí)?

三農(nóng)老歷
2025-05-04 08:13:35
瓜迪奧拉和妻子共度兩晚,復(fù)合失敗,為了曼城付出一切,包括愛(ài)情

瓜迪奧拉和妻子共度兩晚,復(fù)合失敗,為了曼城付出一切,包括愛(ài)情

嗨皮看球
2025-05-08 19:04:23
5個(gè)首輪!季后賽的布里奇斯,到底值不值?

5個(gè)首輪!季后賽的布里奇斯,到底值不值?

籃球?qū)嶄?/span>
2025-05-08 22:38:00
負(fù)債2068億,又一首富倒了!昔日20強(qiáng)房企,33億債務(wù)纏身成老賴(lài)

負(fù)債2068億,又一首富倒了!昔日20強(qiáng)房企,33億債務(wù)纏身成老賴(lài)

紀(jì)中百大事
2025-05-06 14:15:03
特朗普放狠話(huà):“后悔與中國(guó)建交”,新一輪對(duì)華施壓大戲開(kāi)場(chǎng)

特朗普放狠話(huà):“后悔與中國(guó)建交”,新一輪對(duì)華施壓大戲開(kāi)場(chǎng)

貓眼觀(guān)史
2025-05-08 00:11:34
常州市委原常委、組織部部長(zhǎng)陳翔調(diào)任江蘇省民宗委副主任

常州市委原常委、組織部部長(zhǎng)陳翔調(diào)任江蘇省民宗委副主任

澎湃新聞
2025-05-08 13:42:27
5月8日俄烏最新:閱兵式飛行表演隊(duì)被炸

5月8日俄烏最新:閱兵式飛行表演隊(duì)被炸

西樓飲月
2025-05-08 19:25:05
《群狼之城》強(qiáng)行給不知火舞擴(kuò)充容量,導(dǎo)致海外女拳罵聲不斷

《群狼之城》強(qiáng)行給不知火舞擴(kuò)充容量,導(dǎo)致海外女拳罵聲不斷

街機(jī)時(shí)代
2025-05-08 18:21:18
佟大為老婆關(guān)悅生圖:滿(mǎn)臉油光,浮腫明顯,被指“饅化”

佟大為老婆關(guān)悅生圖:滿(mǎn)臉油光,浮腫明顯,被指“饅化”

東方不敗然多多
2025-05-06 01:39:24
合肥一動(dòng)物園國(guó)字臉猴因丑萌出圈,網(wǎng)友: 這又是誰(shuí)的表情包?

合肥一動(dòng)物園國(guó)字臉猴因丑萌出圈,網(wǎng)友: 這又是誰(shuí)的表情包?

有趣的火烈鳥(niǎo)
2025-05-07 21:47:37
約克看好阿莫林,烏加特需要減壓,S羅有可能適合多特蒙德

約克看好阿莫林,烏加特需要減壓,S羅有可能適合多特蒙德

任意球后
2025-05-08 23:59:40
看看裁判波娃比賽中看趙心童的眼神,你就知道小伙子有多帥了

看看裁判波娃比賽中看趙心童的眼神,你就知道小伙子有多帥了

老高說(shuō)體育
2025-05-08 11:59:49
美女撈相機(jī)溺亡后續(xù):生前畫(huà)面慘烈,知情人曝內(nèi)幕 有專(zhuān)業(yè)潛水經(jīng)驗(yàn)

美女撈相機(jī)溺亡后續(xù):生前畫(huà)面慘烈,知情人曝內(nèi)幕 有專(zhuān)業(yè)潛水經(jīng)驗(yàn)

小影的娛樂(lè)
2025-05-08 15:35:00
張嘉倪前夫帶大兒子看病,4個(gè)細(xì)節(jié)被質(zhì)疑作秀,買(mǎi)超的面相也變了

張嘉倪前夫帶大兒子看病,4個(gè)細(xì)節(jié)被質(zhì)疑作秀,買(mǎi)超的面相也變了

檸檬有娛樂(lè)
2025-05-08 10:09:40
勇士賭上11天恢復(fù)期!庫(kù)里帶傷隨隊(duì)治療背后有何玄機(jī)?

勇士賭上11天恢復(fù)期!庫(kù)里帶傷隨隊(duì)治療背后有何玄機(jī)?

田先生籃球
2025-05-08 15:26:31
45歲女子拔牙后離世!醫(yī)生含淚苦勸:這5類(lèi)人不宜拔牙,風(fēng)險(xiǎn)過(guò)高

45歲女子拔牙后離世!醫(yī)生含淚苦勸:這5類(lèi)人不宜拔牙,風(fēng)險(xiǎn)過(guò)高

河山銳新聞
2025-05-07 10:16:35
“我給女兒換衛(wèi)生巾,別人罵我不要臉”!一個(gè)56歲父親的無(wú)奈自白

“我給女兒換衛(wèi)生巾,別人罵我不要臉”!一個(gè)56歲父親的無(wú)奈自白

夢(mèng)史
2025-05-07 15:49:13
全長(zhǎng)約120公里、投資200億元,昆明擬建環(huán)滇池空軌!

全長(zhǎng)約120公里、投資200億元,昆明擬建環(huán)滇池空軌!

開(kāi)屏新聞客戶(hù)端
2025-05-08 20:24:32
你對(duì)爸媽虛報(bào)價(jià)格最多的一次是多少?網(wǎng)友:160萬(wàn)的馬我說(shuō)幾千塊

你對(duì)爸媽虛報(bào)價(jià)格最多的一次是多少?網(wǎng)友:160萬(wàn)的馬我說(shuō)幾千塊

娛樂(lè)圈人物大賞
2025-05-02 00:10:10
2025-05-09 00:44:49
機(jī)器學(xué)習(xí)與Python社區(qū) incentive-icons
機(jī)器學(xué)習(xí)與Python社區(qū)
機(jī)器學(xué)習(xí)算法與Python
2949文章數(shù) 11008關(guān)注度
往期回顧 全部

科技要聞

理想L煥新版來(lái)了,輔助駕駛芯片全系升級(jí)

頭條要聞

美財(cái)長(zhǎng):特朗普考慮豁免部分商品最高145%關(guān)稅

頭條要聞

美財(cái)長(zhǎng):特朗普考慮豁免部分商品最高145%關(guān)稅

體育要聞

面對(duì)一群天賦怪,阿森納只能接受失敗

娛樂(lè)要聞

劉畊宏老婆補(bǔ)刀 清場(chǎng)風(fēng)波口碑翻車(chē)!

財(cái)經(jīng)要聞

57政策解讀:力度空前的系統(tǒng)性穩(wěn)增長(zhǎng)舉措

汽車(chē)要聞

昨天李想點(diǎn)評(píng)了AI 今天我讓AI點(diǎn)評(píng)了理想

態(tài)度原創(chuàng)

家居
健康
數(shù)碼
手機(jī)
公開(kāi)課

家居要聞

侘寂美學(xué) 樸素而有生機(jī)

唇皰疹和口腔潰瘍是"同伙"嗎?

數(shù)碼要聞

雷蛇喬羅金蛛無(wú)線(xiàn)鍵盤(pán)發(fā)布:374g & 16.5mm 輕薄機(jī)身,999 元

手機(jī)要聞

2999元買(mǎi)折疊屏!聯(lián)想moto razr 60系列新品發(fā)布

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 荥阳市| 比如县| 普洱| 四川省| 夹江县| 酉阳| 枣强县| 双鸭山市| 通城县| 乐亭县| 道孚县| 合水县| 莎车县| 保靖县| 佛坪县| 贵南县| 冷水江市| 邢台县| 贵定县| 塔河县| 鄂州市| 西安市| 密云县| 县级市| 镇远县| 神农架林区| 铜鼓县| 南皮县| 栖霞市| 古浪县| 武胜县| 尚志市| 怀仁县| 松原市| 广南县| 莎车县| 福海县| 开阳县| 正阳县| 金山区| 明溪县|