隨著大數(shù)據(jù)時代的來臨,機器學(xué)習(xí)技術(shù)突飛猛進(jìn),并且在人類社會中扮演越來越重要的角色。
例如,你可能已經(jīng)習(xí)慣了每天使用各種搜索引擎查找信息,或者在電商網(wǎng)站和視頻網(wǎng)站的推薦系統(tǒng) ,以及利用谷歌、百度等網(wǎng)站提供的機器翻譯學(xué)習(xí)外語,這些應(yīng)用都離不開機器學(xué)習(xí)模型的支持。
但機器學(xué)習(xí)模型,尤其是當(dāng)下流行的深度學(xué)習(xí)模型面臨著域外泛化、可解釋性、公平性等挑戰(zhàn)。
例如,利用深度學(xué)習(xí)模型做圖像分類時可能會根據(jù)圖片中的沙漠背景立刻判斷圖像中會出現(xiàn)駱駝,這是因為它不會意識到“沙漠背景”和“駱駝出現(xiàn)”之間只存在相關(guān)性。
也就是說,“沙漠背景”并不是“駱駝出現(xiàn)”的原因。
而認(rèn)識到這一點對人類來說并不難。因此,為了實現(xiàn)通用人工智能,機器學(xué)習(xí)算法需要具備判斷特征和標(biāo)簽間是否存在因果關(guān)系的能力。
另外,機器學(xué)習(xí)中對因果關(guān)系的研究也一直扮演著重要的角色。
例如,在流行病學(xué)中,孟德爾隨機化揭示了基因?qū)疾「怕实挠绊懀浔举|(zhì)是一種基于工具變量的因果推斷方法。
在研究疫苗的有效率時,雙盲實驗扮演著不可替代的角色。這是因為雙盲實驗可以衡量疫苗對免疫力的因果效應(yīng)。
而近幾年出現(xiàn)了眾多利用機器學(xué)習(xí)方法解決因果推斷問題的研究。這是因為機器學(xué)習(xí)模型不僅可以有效地處理復(fù)雜的輸入數(shù)據(jù)(如圖像、文字和網(wǎng)絡(luò)數(shù)據(jù)),還能夠?qū)W習(xí)到原因和結(jié)果間復(fù)雜的非線性關(guān)系。
如今,因果機器學(xué)習(xí)的研究在學(xué)術(shù)界可謂百花齊放,從利用機器學(xué)習(xí)模型解決因果推斷問題到將因果關(guān)系添加到機器學(xué)習(xí)模型中,都會涉及因果機器學(xué)習(xí)。
而在業(yè)界,無論是像FAANG 和BAT 這樣的大公司、Zalando(總部位于德國柏林的大型網(wǎng)絡(luò)電子商城,其主要產(chǎn)品是服裝和鞋類)這樣的中型公司,還是像Causalens(一家英國無代碼因果AI產(chǎn)品開發(fā)商)這樣的創(chuàng)業(yè)公司,因果機器學(xué)習(xí)都在解決業(yè)務(wù)問題中扮演著重要的角色。
這意味著業(yè)界對因果機器學(xué)習(xí)人才的需求也處于一個上升期。
例如,2022年春季的就業(yè)市場對這類人才的需求就是一個證明。
但是,目前高校開設(shè)的課程中很少有同時涉及因果推斷和機器學(xué)習(xí)的。
這是因為因果推斷被認(rèn)為是統(tǒng)計學(xué)、經(jīng)濟學(xué)、流行病學(xué)的課程。而機器學(xué)習(xí)主要出現(xiàn)在計算機科學(xué)和數(shù)據(jù)科學(xué)的教學(xué)大綱中。
因此,《因果推斷與機器學(xué)習(xí)》一書正好可以幫助到那些想要系統(tǒng)學(xué)習(xí)因果機器學(xué)習(xí),并在將來從事相關(guān)工作的讀者。
內(nèi)容簡介
為了幫助讀者建立連接因果推斷和機器學(xué)習(xí)這兩個重要領(lǐng)域所需要的知識體系,本書對內(nèi)容做了精心規(guī)劃。
為了照顧到?jīng)]有因果推斷基礎(chǔ)的讀者,第1章解答了在學(xué)習(xí)因果推斷之初讀者可能面臨的問題。例如,潛結(jié)果框架和結(jié)構(gòu)因果模型兩種基礎(chǔ)理論框架到底有什么區(qū)別?因果推斷的經(jīng)典方法有哪些,它們分別適用于什么場景?
在此基礎(chǔ)上,第2章介紹了更前沿的、利用機器學(xué)習(xí)模型來解決因果推斷問題的具有代表性的方法,希望那些想要解決因果效應(yīng)估測、政策評估、智能營銷增益模型(Uplift Modeling)這些因果推斷問題的讀者從中有所收獲。
第3、4章中討論的域外泛化、可解釋性和公平性問題都在近幾年受到學(xué)界和業(yè)界的大量關(guān)注。它們體現(xiàn)了基于相關(guān)性的機器學(xué)習(xí)模型的局限性。而基于因果性的因果機器學(xué)習(xí)方法對于克服這些局限性十分有效。這部分知識可以回答在機器學(xué)習(xí)領(lǐng)域工作的讀者的一個問題:為什么因果性對于機器學(xué)習(xí)的研究和實踐非常重要?
第5章介紹基于因果的推薦系統(tǒng)和學(xué)習(xí)排序方法,可以幫助對這些領(lǐng)域感興趣的讀者打下堅實的基礎(chǔ),從而在相關(guān)的科研和實踐中做到游刃有余。
第6章是對全書主要內(nèi)容的總結(jié)。
本書是基于作者在因果機器學(xué)習(xí)研究、教學(xué)和實踐中積累的知識和經(jīng)驗而撰寫的,旨在探索如何構(gòu)建一個容易被讀者接受的因果機器學(xué)習(xí)知識體系,為培養(yǎng)因果機器學(xué)習(xí)的跨學(xué)科人才做一份貢獻(xiàn)。
精彩書評
在機器學(xué)習(xí)算法在各領(lǐng)域取得重大成果的今天,人工智能仍然面臨著挑戰(zhàn)。如今,大規(guī)模的機器學(xué)習(xí)模型在有海量數(shù)據(jù)的條件下可以學(xué)習(xí)到復(fù)雜的相關(guān)性。但它們?nèi)匀缓茈y像人類一樣,只用少量的數(shù)據(jù)就可以學(xué)習(xí)到數(shù)據(jù)中隱含的因果關(guān)系。
本書首先介紹因果推斷的基礎(chǔ)知識,然后介紹因果機器學(xué)習(xí)在域外泛化、可解釋性、算法公平性、自然語言處理和推薦搜索糾偏等熱門研究和應(yīng)用領(lǐng)域中最具代表性的模型方法和應(yīng)用場景,適合數(shù)據(jù)科學(xué)相關(guān)專業(yè)的高年級本科生、研究生閱讀。
——張愛東 美國弗吉尼亞大學(xué)教授,ACM/IEEE/AIMBE Fellow
讓機器學(xué)習(xí)模型像人類一樣,能夠區(qū)分因果性和相關(guān)性是邁向通用人工智能的一個關(guān)鍵步驟。本書講解了因果機器學(xué)習(xí)相關(guān)的基礎(chǔ)知識、重要的方法和典型的應(yīng)用,包括自然語言處理、機器學(xué)習(xí)可解釋性、算法公平性、推薦搜索糾偏等。
本書對想要進(jìn)入因果機器學(xué)習(xí)領(lǐng)域、數(shù)據(jù)科學(xué)相關(guān)專業(yè)的本科生、研究生和從業(yè)人員很有幫助。
——常毅 吉林大學(xué)人工智能學(xué)院院長、教授,BCS/IET Fellow,ACM 杰出會員
人工智能和機器學(xué)習(xí)模型正在各行各業(yè)發(fā)揮著舉足輕重的作用。傳統(tǒng)機器學(xué)習(xí)往往專注于提升某個任務(wù)的預(yù)測準(zhǔn)確能力,從而忽視了模型背后所能夠揭示的更深層次的不同變量之間的因果聯(lián)系,以致得到缺乏解釋性的模型,更有可能做出不公平的決策,甚至在新的數(shù)據(jù)分布上表現(xiàn)不佳。讓機器學(xué)習(xí)模型能夠進(jìn)行因果推斷是從提高預(yù)測精度到揭示事物變化規(guī)律這一重要躍遷的關(guān)鍵能力。
本書深入淺出地介紹了因果機器學(xué)習(xí)的理論及其在各細(xì)分領(lǐng)域的應(yīng)用,對相關(guān)領(lǐng)域的科研人員和工程師了解和研究因果機器學(xué)習(xí)會有很大幫助。
——洪亮劼 美國領(lǐng)英公司工程總監(jiān),博士
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.