99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

不要小看線性回歸!

0
分享至


大數據文摘編譯

在數據領域初學時,大家常聽到的一個建議是:不要試圖把整個機器學習都學透——因為它實在太龐大且變化太快,根本不現實;

而更應該聚焦在少數幾個與數據工作日常緊密相關的模型,比如決策樹、支持向量機,當然,還有線性回歸。

線性回歸本身就是一個非常實用的模型,更有意思的是,許多其他機器學習模型其實都是在它的基礎上稍作改動而來。

本文的目的,就是想讓大家看到這一點。接下來,我們會先簡要回顧一下線性回歸的基本原理,然后再介紹它的幾種常見變體。


01 線性回歸再認識

線性回歸屬于監督學習,也就是說我們有一個明確的輸出變量(即目標變量),我們假定它是輸入特征的線性函數。通常我們會用下面這樣的公式來表示:


這里,y 是目標變量,x 是包含所有輸入特征的向量,ε 代表“噪聲”,也就是那些讓我們的數據點無法完全落在直線上的誤差。

我們進一步假設這些噪聲服從均值為0、方差恒定的正態分布,也就是說,無論特征值大小如何,數據點距離直線的遠近都是類似的。

換句話說,理想中的線性回歸散點圖大致是這樣的:


而不是這樣的:


(方差不恒定時的圖像,線性回歸失效)


02 多項式回歸

在線性回歸中,我們假設目標變量是特征的線性函數。

但在實際問題中,目標往往和特征之間關系更為復雜。剛意識到這一點時,很多人可能會覺得棘手,仿佛我們需要去找到某個函數 f,使得 y = f(x) + 噪聲。

不過,如果仔細想想線性回歸的原理,就會發現現實世界很多規律其實都是連續的,這類函數往往可以用多項式很好地逼近(感興趣的同學可以去查查 Weierstrass 逼近定理或 Stone-Weierstrass 定理)。

線性函數其實只是一次多項式而已,所以多項式回歸可以看作是一種自然的推廣。模型形式大致如下:


如果你在初步分析數據時,發現目標與輸入的關系是彎曲的、非線性的,那么多項式回歸或許值得一試。比如下圖:


(x3-x 曲線的數據擬合示意圖)

03 廣義線性回歸

多項式回歸改變的是等式右側的函數形式,那左側呢?如果不是目標變量本身,而是它的某個函數和輸入的線性組合有關呢?也就是說,模型變成了:


這就是廣義線性回歸(Generalized Linear Regression,GLM)。

當 f(y) = y 時,就是我們前面討論的普通線性回歸,所以廣義線性回歸是它的直接擴展。

那 f 可以取什么形式呢?這取決于具體建模任務,但有幾個常見的特例:

  • 如果懷疑目標變量服從泊松分布,自然可以取 f(y) = ln(y),這就是泊松回歸。


  • 還有更常見的分類問題。雖然線性回歸及其變體主要用于回歸任務(顧名思義),但數據人第一次接觸分類任務時,往往學到的第一個模型就是邏輯回歸。其實,邏輯回歸正是廣義線性回歸在 logit 函數(f(y) = ln(y/(1-y))) 下的特例。

04 貝葉斯線性回歸

這里不打算展開貝葉斯統計的基礎知識,相關資料很多,有興趣的同學可以自行查閱。

簡單來說,就是當我們的數據很少、信息有限時,可以借助專家意見(先驗知識)來輔助建模,獲得對問題更全面的認識。在線性回歸的情境下,如果數據點很少,直接擬合參數往往不靠譜,因為信息量不足。

但如果我們不追求唯一的“最佳擬合直線”,而是希望得到一條“高度可能包含真實直線”的區域,那么貝葉斯線性回歸正好可以滿足這樣的需求。

數學細節可能會比較復雜,但核心思想就是:與其給出一條確定的直線,不如給出一個可能包含直線的區域。數據點越多,這個區域就越窄,我們對直線的位置也越有信心。如下圖所示:


(貝葉斯回歸的置信區間示意圖)


05 神經網絡

回到開頭給初學者的建議,雖然深度學習和神經網絡現在非常火爆,相關研究也是機器學習領域的前沿,但其實本質上,神經網絡也就是大量“重型并行版的線性回歸”再加上“激活函數”而已。

簡單來說,神經網絡由許多“神經元”(也叫感知機)組成,分布在不同的層中。每個神經元本質上就是一個線性回歸,加上一個激活函數,用來判斷輸入是否足夠讓神經元“激活”。神經網絡的訓練過程,其實就是在不斷調整這些線性回歸的系數。

歸根結底,神經網絡就是大量的線性回歸!不同的網絡結構,核心區別無非是神經元(線性回歸單元)數量和層數的不同。最復雜的深度網絡,神經元可以多達上百萬,層數也很多。

激活函數的選擇也有多種(Heaviside、ReLU、Sigmoid 等都很常見),有的網絡還會在不同層用不同的激活函數 。

但本質區別也就這些。無論是 CNN、自動編碼器、Transformer 等等,歸根結底,都是由大量小小的線性回歸單元組成的。

06 總結

所以,線性回歸或許看起來有些平淡無奇,但它其實是許多機器學習模型的基礎。上面這些討論遠遠不是全部內容,但希望能讓你意識到線性回歸的重要性。千萬不要小看線性回歸!

https://medium.com/data-and-beyond/do-not-underestimate-linear-regression-4680a19f5838

GPU算力按需租用

A100/H100 GPU算力按需租用,

秒級計費,平均節省開支30%以上!

掃碼了解詳情?


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
大西高鐵史上最強標桿列車誕生!D4901次列車大同南開往西安北

大西高鐵史上最強標桿列車誕生!D4901次列車大同南開往西安北

小宇宙雙色球
2025-05-04 07:14:17
男生18cm有啥壞處?妹子現場演示長短對比太生動,看完動圖秒懂哈哈

男生18cm有啥壞處?妹子現場演示長短對比太生動,看完動圖秒懂哈哈

經典段子
2025-04-14 23:34:48
婚姻法新規:非夫妻關系的男女自愿同居,如果被查到之后...

婚姻法新規:非夫妻關系的男女自愿同居,如果被查到之后...

喬話
2025-04-28 21:57:12
真正對中國構成安全威脅的兩個國家

真正對中國構成安全威脅的兩個國家

基本常識
2025-05-03 22:11:35
回顧:重慶殺子案罪犯張波執行死刑前,被法警拖著走,雙腿直打顫

回顧:重慶殺子案罪犯張波執行死刑前,被法警拖著走,雙腿直打顫

史紀文譚
2025-05-03 19:31:29
普京談列寧:一生最大的錯誤,就是把一個統一國家改造成聯盟

普京談列寧:一生最大的錯誤,就是把一個統一國家改造成聯盟

馬蹄燙嘴說美食
2025-05-04 06:27:31
十年行內專家建議:住宅寧愿空著,也不要輕易出租!都是為啥?

十年行內專家建議:住宅寧愿空著,也不要輕易出租!都是為啥?

巢客HOME
2025-04-11 10:15:08
沙特以“資源有限”為由,重新全面審查Neom項目

沙特以“資源有限”為由,重新全面審查Neom項目

GA環球建筑
2025-05-02 22:27:37
江蘇65歲阿姨感染艾滋病,查明原因,醫生:這個細節被忽視了

江蘇65歲阿姨感染艾滋病,查明原因,醫生:這個細節被忽視了

黃家湖的憂傷
2025-03-31 17:26:16
巴菲特:今年到目前為止我們沒有做任何股票回購

巴菲特:今年到目前為止我們沒有做任何股票回購

每日經濟新聞
2025-05-04 00:08:11
島國女神下海,這部大作不只有尺度

島國女神下海,這部大作不只有尺度

天天美劇吧
2025-05-02 20:44:08
中國一旦發生戰爭,要記得第一時間要帶好這5樣東西,才能保命

中國一旦發生戰爭,要記得第一時間要帶好這5樣東西,才能保命

阿策聊實事
2025-04-27 17:15:00
醫院人妻通奸后續:開房幾十次,多次用咬,人妻美照曝光

醫院人妻通奸后續:開房幾十次,多次用咬,人妻美照曝光

蜉蝣說
2024-10-24 16:07:30
世界第1懸了!特魯姆普半決賽被老將逼入絕境,趙心童躺贏等撿漏

世界第1懸了!特魯姆普半決賽被老將逼入絕境,趙心童躺贏等撿漏

云隱南山
2025-05-04 07:44:36
母親患癌養子照顧9年,臨終給養子2萬親兒2套房,養子取款傻眼

母親患癌養子照顧9年,臨終給養子2萬親兒2套房,養子取款傻眼

清茶淺談
2025-04-28 19:23:21
塔帥咋想的?巴黎聯賽寧愿大輪換輸球,槍手主力出戰還輸掉比賽

塔帥咋想的?巴黎聯賽寧愿大輪換輸球,槍手主力出戰還輸掉比賽

直播吧
2025-05-04 07:25:22
廣東試點住院免陪護!每天140元起,八城家屬終于解放

廣東試點住院免陪護!每天140元起,八城家屬終于解放

苗苗情感說
2025-05-03 18:33:03
網友:看了王菲的手,以后再也不做美甲了

網友:看了王菲的手,以后再也不做美甲了

丫頭舫
2025-04-15 21:42:26
鼻涕姐被定性,上海官方稱“涉安全問題”,本人開通專屬會員。

鼻涕姐被定性,上海官方稱“涉安全問題”,本人開通專屬會員。

健身狂人
2025-05-03 13:14:56
編外人員“清退”開始,輔警、城管協管、護士、教師或將面臨失業

編外人員“清退”開始,輔警、城管協管、護士、教師或將面臨失業

華人星光
2025-04-30 13:05:33
2025-05-04 08:39:00
大數據文摘 incentive-icons
大數據文摘
專注大數據,每日有分享!
6611文章數 94407關注度
往期回顧 全部

科技要聞

特朗普下手,英偉達對華“特供版”要改

頭條要聞

女孩輸頭孢4分鐘后過敏 呼救無響應自行拔針仍身亡

頭條要聞

女孩輸頭孢4分鐘后過敏 呼救無響應自行拔針仍身亡

體育要聞

北京請神馬布里?許利民真有“玄學”!

娛樂要聞

金秀賢遭多家品牌起訴 索賠近60億韓元

財經要聞

巴菲特談貿易、AI、股市、房地產!

汽車要聞

易三方科技體驗日·北京站上演硬核駕控

態度原創

家居
旅游
本地
公開課
軍事航空

家居要聞

意式輕奢 低飽和質感美學

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

本地新聞

春色滿城關不住 | 花漾千陽!塬上秘境藏幾重詩意?

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美國將于6月14日舉行閱兵式

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 甘谷县| 林西县| 友谊县| 团风县| 甘泉县| 榆中县| 隆昌县| 青冈县| 陕西省| 合肥市| 报价| 霍邱县| 隆昌县| 枞阳县| 景宁| 丰原市| 阿克苏市| 尼勒克县| 曲水县| 白朗县| 玉屏| 枣阳市| 富民县| 茶陵县| 泽州县| 高陵县| 延寿县| 剑河县| 诸城市| 张北县| 德昌县| 历史| 瑞金市| 石河子市| 南宁市| 门头沟区| 五华县| 南木林县| 昔阳县| 聊城市| 嘉义县|