99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

AI 爬蟲核武器!Crawl4AI 橫空出世,數據采集只需一行代碼

0
分享至


大家好,我是 Ai 學習的老章

推薦一個大模型周邊項目

一、項目簡介

Crawl4AI 是一款專為大語言模型(LLM)和 AI 應用設計的開源網頁爬蟲與數據抓取工具。它不僅能高效采集網頁數據,還能直接輸出結構化、干凈的 Markdown 內容,非常適合用于 RAG(檢索增強生成)、AI 微調、知識庫建設等場景。

二、核心亮點

  • 為 LLM 優化:輸出智能、精煉的 Markdown,極大方便 AI 下游處理。

  • 極速高效:實時爬取,速度提升 6 倍,性能與成本兼顧。

  • 靈活瀏覽器控制:支持會話管理、代理、定制化 hook,輕松應對反爬與復雜頁面。

  • 啟發式智能抽取:集成先進算法,減少對大模型的依賴,提升信息提取效率。

  • 開源易部署:無需 API Key,支持 Docker 與云端部署。

三、安裝與快速上手
  1. 安裝

pip install crawl4ai crawl4ai-setup  # 一鍵配置瀏覽器環境

如遇瀏覽器相關問題,可手動安裝 Playwright:

python -m playwright install --with-deps chromium
  1. Python 快速示例

import asyncio from crawl4ai import * async def main():     async with AsyncWebCrawler() as crawler:         result = await crawler.arun(             url="[https://www.nbcnews.com/business",](https://www.nbcnews.com/business",)         )         print(result.markdown) if __name__ == "__main__":     asyncio.run(main())
  1. 命令行用法

# 基礎爬取并輸出 Markdown crwl [https://www.nbcnews.com/business](https://www.nbcnews.com/business) -o markdown # 深度爬取,BFS 策略,最多 10 頁 crwl [https://docs.crawl4ai.com](https://docs.crawl4ai.com) --deep-crawl bfs --max-pages 10 # 調用 LLM 按問題抽取 crwl [https://www.example.com/products](https://www.example.com/products) -q "提取所有商品價格"
四、典型應用場景

構建 AI 知識庫、FAQ、企業內網檢索 自動化采集新聞、論壇、商品信息 支持自定義抽取策略,適配各類結構化/半結構化數據 結合 LLM 做智能問答、信息抽取

五、進階用法示例

自定義內容過濾與 Markdown 生成

from crawl4ai import AsyncWebCrawler, BrowserConfig, CrawlerRunConfig, CacheMode from crawl4ai.content_filter_strategy import PruningContentFilter from crawl4ai.markdown_generation_strategy import DefaultMarkdownGenerator asyncdef main():     browser_config = BrowserConfig(headless=True, verbose=True)     run_config = CrawlerRunConfig(         cache_mode=CacheMode.ENABLED,         markdown_generator=DefaultMarkdownGenerator(             content_filter=PruningContentFilter(threshold=0.48, threshold_type="fixed", min_word_threshold=0)         )     )     asyncwith AsyncWebCrawler(config=browser_config) as crawler:         result = await crawler.arun(             url="[https://docs.micronaut.io/4.7.6/guide/",](https://docs.micronaut.io/4.7.6/guide/",)             config=run_config         )         print(result.markdown.raw_markdown)

自定義 Schema 結構化抽取

from crawl4ai import AsyncWebCrawler, BrowserConfig, CrawlerRunConfig, CacheMode from crawl4ai.extraction_strategy import JsonCssExtractionStrategy import json asyncdef main():     schema = {         "name": "課程信息",         "baseSelector": "section.charge-methodology .w-tab-content > div",         "fields": [             {"name": "section_title", "selector": "h3.heading-50", "type": "text"},             {"name": "course_name", "selector": ".text-block-93", "type": "text"},             {"name": "course_icon", "selector": ".image-92", "type": "attribute", "attribute": "src"}         ]     }     extraction_strategy = JsonCssExtractionStrategy(schema, verbose=True)     browser_config = BrowserConfig(headless=False, verbose=True)     run_config = CrawlerRunConfig(extraction_strategy=extraction_strategy, cache_mode=CacheMode.BYPASS)     asyncwith AsyncWebCrawler(config=browser_config) as crawler:         result = await crawler.arun(             url="[https://www.kidocode.com/degrees/technology",](https://www.kidocode.com/degrees/technology",)             config=run_config         )         companies = json.loads(result.extracted_content)         print(json.dumps(companies, indent=2))

制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
你上下行速度多少!工信部:1000Mbps及以上接入速率的固網寬帶接入達2.23億戶

你上下行速度多少!工信部:1000Mbps及以上接入速率的固網寬帶接入達2.23億戶

快科技
2025-06-25 16:18:11
63歲吳鎮宇新造型太棒了,沒有老人味還越來越年輕,至少年輕20歲

63歲吳鎮宇新造型太棒了,沒有老人味還越來越年輕,至少年輕20歲

TVB的四小花
2025-06-16 02:57:47
杜蘭特攜手威少加盟火箭,掘金甩約基奇,火箭重組沖冠局

杜蘭特攜手威少加盟火箭,掘金甩約基奇,火箭重組沖冠局

秘密清風
2025-06-27 14:01:20
李湘和16歲女兒回國,直奔商場買鞋買衣服,王詩齡不化妝很清純

李湘和16歲女兒回國,直奔商場買鞋買衣服,王詩齡不化妝很清純

檸檬有娛樂
2025-06-27 10:13:46
追求標準答案危害無窮

追求標準答案危害無窮

水寒說語文
2025-06-26 17:30:16
黃一鳴自曝:王思聰每次約她,車費都給10萬,來給5萬,回再給5萬

黃一鳴自曝:王思聰每次約她,車費都給10萬,來給5萬,回再給5萬

漢史趣聞
2025-06-24 10:07:59
楊瀚森自評現役模板:同為16順位申京 吃煎餅調侃和周琦夢幻聯動

楊瀚森自評現役模板:同為16順位申京 吃煎餅調侃和周琦夢幻聯動

醉臥浮生
2025-06-27 15:48:22
財政部:截至5月末全國地方政府債務余額512475億元

財政部:截至5月末全國地方政府債務余額512475億元

澎湃新聞
2025-06-27 10:36:06
艱難抉擇!湖北一高二考生被屏蔽,走還是不走?家長和學校犯難了

艱難抉擇!湖北一高二考生被屏蔽,走還是不走?家長和學校犯難了

火山詩話
2025-06-26 06:42:34
當年為什么查辦褚時健?

當年為什么查辦褚時健?

顧史
2025-06-09 20:26:22
又一個經濟奇跡——孟加拉國

又一個經濟奇跡——孟加拉國

古老板的老巢
2025-06-24 23:41:45
博伊爾斯女友社媒曬照慶祝男友被猛龍選中:哦嘿呀

博伊爾斯女友社媒曬照慶祝男友被猛龍選中:哦嘿呀

懂球帝
2025-06-27 08:40:19
洪森惱羞成怒,竟曝光英拉秘事,佩通坦絕地反擊,泰專機直飛中國

洪森惱羞成怒,竟曝光英拉秘事,佩通坦絕地反擊,泰專機直飛中國

嘆知
2025-06-23 10:34:33
中國游戲超越日本!來自日本玩家の認可!IGN日本高度評價《歸唐》!甘肅文旅廳宣布支持開發組古跡掃描

中國游戲超越日本!來自日本玩家の認可!IGN日本高度評價《歸唐》!甘肅文旅廳宣布支持開發組古跡掃描

Steam社區
2025-06-26 11:57:21
絕了!碘伏才是隱藏的省錢刺客!我居然白白燒了五年冤枉錢!

絕了!碘伏才是隱藏的省錢刺客!我居然白白燒了五年冤枉錢!

墻頭草
2025-04-01 12:00:11
昔日女神成方圓老了!兩段婚姻失敗無子女,對愛失望選擇單身

昔日女神成方圓老了!兩段婚姻失敗無子女,對愛失望選擇單身

一盅情懷
2025-06-27 15:54:59
1小時賣了578億!小米YU7大定28.9萬輛遠超SU7,小米ADR暴漲12%,雷軍連喊三個“安全”

1小時賣了578億!小米YU7大定28.9萬輛遠超SU7,小米ADR暴漲12%,雷軍連喊三個“安全”

金融界
2025-06-26 23:50:34
塵埃落定,重返巴薩?內馬爾官宣,1年合同,年薪1500萬

塵埃落定,重返巴薩?內馬爾官宣,1年合同,年薪1500萬

東球弟
2025-06-27 12:34:08
笑暈!江蘇衛視又逮著常州一個勁嚯嚯!這回“遭殃”的你卻想不到

笑暈!江蘇衛視又逮著常州一個勁嚯嚯!這回“遭殃”的你卻想不到

深析古今
2025-06-27 17:14:39
萬萬沒想到!拒給馬筱梅做婚紗,緬懷大S的蘭玉,竟是他的前女友

萬萬沒想到!拒給馬筱梅做婚紗,緬懷大S的蘭玉,竟是他的前女友

史行途
2025-06-27 15:07:11
2025-06-27 21:44:49
機器學習與Python社區 incentive-icons
機器學習與Python社區
機器學習算法與Python
3014文章數 11024關注度
往期回顧 全部

科技要聞

雷軍:小米汽車成功沒靠營銷,靠的是能力

頭條要聞

美國打擊伊朗核設施后 美軍一將領進入特朗普核心圈

頭條要聞

美國打擊伊朗核設施后 美軍一將領進入特朗普核心圈

體育要聞

曼城“庫里”連線,送尤文晚安好夢

娛樂要聞

炸裂!榜一大姐深夜怒錘頂流

財經要聞

合新鐵路建設材料以次充好 多家單位被罰

汽車要聞

配置升級/貴賓座椅 全新GL8陸上公務艙售22.99萬

態度原創

手機
家居
健康
教育
時尚

手機要聞

小米MIX Flip2線下上手:體驗后,說說真實感受

家居要聞

明亮寬敞 空間合理安排

呼吸科專家破解呼吸道九大謠言!

教育要聞

昌平感知覺統合培訓班結業式暨鞏華中心小學一體化生態課間研討會

到了夏天,中年女人穿過膝裙不配運動鞋,才能美得優雅又得體

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 渝北区| 东海县| 兴和县| 河津市| 团风县| 全州县| 永安市| 潼南县| 曲周县| 营口市| 宜川县| 桓仁| 墨脱县| 陇西县| 连城县| 十堰市| 台北县| 邯郸市| 镇康县| 页游| 乌鲁木齐市| 永年县| 隆子县| 永德县| 澄江县| 株洲县| 全州县| 额济纳旗| 松潘县| 广东省| 昌都县| 清涧县| 景泰县| 麦盖提县| 原平市| 贡觉县| 县级市| 光山县| 新津县| 环江| 彭阳县|