大家好,我是東哥,你身邊放心的香港保險(xiǎn)顧問。
這是我的第641篇原創(chuàng)。
上篇文章,我們探討了要不要介入當(dāng)前大熱點(diǎn)小紅書,去分一杯流量的羹。
所有的賺錢,都是內(nèi)行人賺外行人的錢。
把自己的長處,打磨成一米寬、一萬米深,形成絕對優(yōu)勢。
然后用這個(gè)絕對優(yōu)勢,給別人創(chuàng)造價(jià)值,進(jìn)而在增量市場上,賺更高級(jí)的錢。
把自己的基本盤丟一邊,跑到別人的地盤上搶食,憑什么?
梁靜茹也沒這么大的勇氣。
今天我們繼續(xù)聊AI。
東哥這段時(shí)間,在ChatGPT的幫助下,做了一個(gè)機(jī)器人,讓它干些數(shù)據(jù)收集的工作。
感覺很爽。
1
數(shù)據(jù)獲取傳統(tǒng)的方式是用爬蟲。
但實(shí)際上,爬蟲在現(xiàn)代網(wǎng)站上已經(jīng)越來越不好用了。
一來是各網(wǎng)站的反爬系統(tǒng)非常強(qiáng)大。
為了獲取一點(diǎn)數(shù)據(jù),和專業(yè)的反爬工具和反爬團(tuán)隊(duì)斗智斗勇,不值。
二來現(xiàn)代網(wǎng)頁有很多動(dòng)態(tài)展示,傳統(tǒng)爬蟲沒有辦法處理這些問題。
怎么辦?
換思路。
反爬工具是捕獲爬蟲特征,如果我們不用爬蟲,而是模擬人的操作,大部分反爬工具就不好用了。
就是傳說中的機(jī)器人啊哈哈。
最簡單的,是用一些模擬鼠標(biāo)鍵盤的工具,比如pyautogui
。
https://pypi.org/project/PyAutoGUI/
這是什么東東?
pyautogui
是一個(gè)簡單、強(qiáng)大的 Python 庫,用于模擬鼠標(biāo)和鍵盤操作。
常用于自動(dòng)化任務(wù)、圖形化用戶界面測試以及一些簡單的腳本化工作。
簡單的來說,就是用Python控制鼠標(biāo)和鍵盤,進(jìn)而用代碼模擬人的操作。
比如可以移動(dòng)鼠標(biāo)到指定位置,點(diǎn)擊、雙擊、右鍵點(diǎn)擊,以及滾動(dòng)鼠標(biāo)滾輪。
再比如可以鍵盤控制,輸入文本、按下、釋放單個(gè)或多個(gè)鍵,以及模擬快捷鍵操作。
它主要能用來做什么?
典型的,可以自動(dòng)化任務(wù)。
比如填寫表單、點(diǎn)擊按鈕,或者做一些自動(dòng)化重復(fù)性工作,例如登錄系統(tǒng)、運(yùn)行測試。
也有人用來做游戲腳本,模擬點(diǎn)擊和操作。
哈,啥都能和玩兒掛上鉤。
pyautogui
的問題是,功能太單一。
比如想從網(wǎng)頁上獲取數(shù)據(jù),就必須對網(wǎng)頁做一些交互,比如點(diǎn)擊、復(fù)制之類。
就會(huì)依賴于點(diǎn)擊的位置。
所以它只能是針對特定問題的一次性解決方案,不具備通用性。
怎么辦?
2
既然想獲取的內(nèi)容在網(wǎng)頁上,那我們就用專門針對網(wǎng)頁的庫。
比如selenium
。
什么是selenium
?
https://pypi.org/project/selenium/
Selenium 是一個(gè)廣泛使用的開源工具,用于自動(dòng)化 Web 瀏覽器的操作。
它支持多種編程語言,比如 Python、Java、C# 等。
常用于 Web 應(yīng)用測試、數(shù)據(jù)爬取以及自動(dòng)化任務(wù)。
可以看做網(wǎng)頁專用機(jī)器人。
我們可以用它來做一些瀏覽器自動(dòng)化任務(wù)。
具體來說,可以模擬用戶在瀏覽器中的操作,例如點(diǎn)擊、輸入、滾動(dòng)、截圖等。
selenium
兼容多個(gè)主流瀏覽器,包括 Chrome、Edge、Firefox 和 Safari 等。
說到這兒,有點(diǎn)憂傷。
目前東哥的主力瀏覽器,是Edge,為的是設(shè)置啥的能跟著俺的微軟賬戶同步。
而世界范圍內(nèi),更主流的瀏覽器是Chrome。
根據(jù)最新的市場數(shù)據(jù),2024年12月全球?yàn)g覽器市場的占有率如下:
谷歌Chrome:66.88%。
微軟Edge:13.21%。
蘋果Safari:8.49%。
Mozilla Firefox:6.14%。
Opera:2.74%。
Chrome穩(wěn)居市場首位。
但是,我們的網(wǎng)絡(luò)狀況,用不了……
哎。
回過頭來,咱繼續(xù)聊selenium
。
具體的技術(shù)細(xì)節(jié),咱這里就不討論了。
畢竟咱不是專業(yè)的IT賬號(hào)。
而且怎么實(shí)現(xiàn)這些功能,用ChatGPT比東哥更高效。
東哥使用下來的感受是,適度的自動(dòng)化是最好的。
不要嘗試所有內(nèi)容都交給自動(dòng)化腳本,那樣腳本會(huì)無比復(fù)雜。
比如網(wǎng)頁導(dǎo)航,以及動(dòng)態(tài)數(shù)據(jù)展示,就可以手工處理。
把剩下的重復(fù)性工作,交給selenium
。
用selenium
采集到數(shù)據(jù)之后,就可以把文本內(nèi)容交給pandas等更專業(yè)的文本及數(shù)據(jù)處理工具,做進(jìn)一步加工了。
3
東哥利用selenium
,把之前估計(jì)需要用一周才能完成的任務(wù),花了大概兩個(gè)小時(shí)就搞定了。
其中有一個(gè)多小時(shí),是在和ChatGPT聊天。
告訴它我的需求,讓它一點(diǎn)點(diǎn)完善和調(diào)整。
ChatGPT的出現(xiàn),極大的拓展了東哥的邊界。
而這一切,才剛剛開始。
關(guān)注東哥,保護(hù)中產(chǎn)財(cái)富,一起慢慢變富。
東哥目前提供如下服務(wù),有需要的朋友歡迎微信來撩。
,一個(gè)經(jīng)營強(qiáng)鏈接的社群。
群里有老板、投資人、500強(qiáng)高管、律師、HR……
討論個(gè)人IP打造、中年人第二曲線、碩博學(xué)歷提升、企業(yè)出海項(xiàng)目等。
,分享一些專業(yè)金融知識(shí)及硬核資訊;
討論香港保險(xiǎn)、香港銀行開戶、美股投資、比特幣投資、房產(chǎn)投資等。
,1-2小時(shí)的深度交流。
涵蓋自媒體指導(dǎo)、職業(yè)規(guī)劃、就業(yè)指導(dǎo)、IP打造、個(gè)人優(yōu)勢挖掘、銷售獲客技巧、資源鏈接等。
人是萬物的尺度。找一群人一起走,一起慢慢變富。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.