- 一線(xiàn)互聯(lián)網(wǎng)公司對 AI 工程師的要求是什么樣的?
- 我應當掌握哪些 AI 技能樹(shù)?
- 從事 AI 工作一定要有碩士、博士的知識儲備嗎?
- 從零學(xué)習人工智能真的需要5年以上時(shí)間嗎?
- 系統化學(xué)習和實(shí)戰中總結哪個(gè)更高效?
如何成為一名數據科學(xué)家?
? ? ? 在回答這個(gè)問(wèn)題之前,希望你先想想另外一個(gè)問(wèn)題:為什么要成為數據科學(xué)家?當然,如果你是為了10萬(wàn)美元的年薪也無(wú)可厚非,但是我衷心希望你能將這個(gè)職業(yè)和自己的價(jià)值感掛鉤。因為成為數據科學(xué)家的路途會(huì )很辛苦,但如果你將其看成是實(shí)現個(gè)人價(jià)值的一種方式,那么追尋目標才能帶來(lái)長(cháng)久的成就感,在這個(gè)過(guò)程中會(huì )感到快樂(lè )并且動(dòng)力十足。?
一、數據科學(xué)家應掌握的技能包
? ? ? ?要回答“如何成為……”這樣的問(wèn)題,首先當然需要知道想要成為的對象是個(gè)什么樣子。圖1 是一個(gè)數據科學(xué)家的技能表。
?
? ? ? ?首先編程能力是數據科學(xué)家需要的基本技能。數據讀取、整合、建模分析和可視化的整個(gè)環(huán)節都需要用到這些工具。在業(yè)界環(huán)境中,整個(gè)數據鏈大概分為5塊:?
1. 云端數據存儲系統。比如亞馬遜的云服務(wù) AWS,大數據可以用分布式存儲在 S3中。AWS 更像是一個(gè)生態(tài)系統,里面有數據庫,也可以在上面運行一些代碼,比如實(shí)時(shí)從社交網(wǎng)站上爬取數據儲存在云端數據庫中。?
2. 安全門(mén)。讀寫(xiě)數據都需要經(jīng)過(guò)這道安全門(mén),這個(gè)部分主要是由公司的 IT 部門(mén)建立。安全門(mén)有3種限制訪(fǎng)問(wèn)權限的方式: IP 地址:只接受從特定 IP 地址的訪(fǎng)問(wèn);職能:比如只有頭銜是數據科學(xué)家和數據工程師的人有權限;用戶(hù)名密碼。公司常常會(huì )同時(shí)使用上面3種方法,也就是有特定職能,從特定 IP 地址,通過(guò)用戶(hù)名和密碼訪(fǎng)問(wèn)。數據工程師會(huì )訓練數據科學(xué)家穿越這重重安全門(mén)。這里對數據科學(xué)家的計算機要求并不高,只需要知道一些基本的 Linux 就可以,苦活累活都讓工程師們包攬了。
3. SQL 客戶(hù)端。數據科學(xué)家需要通過(guò) SQL 從數據庫中讀取相應數據。根據數據庫的不同,使用 SQL 的類(lèi)型和語(yǔ)法也略有不同,但大體上非常相似。掌握基本的數據庫讀取操作是非常必要的。
4. 數據分析。現在使用最廣的數據分析語(yǔ)言是 R 和 Python,熟練使用至少其中一門(mén)語(yǔ)言幾乎成為數據科學(xué)家的標配。只會(huì ) SAS 行不?不行。當然,這些都只是工具,工具是解決問(wèn)題的手段,而非目的。你必須要有一個(gè)能用來(lái)進(jìn)行數據分析的工具,偏好因人而異,但選擇工具的時(shí)候最好考慮工具的靈活和可擴展性。
5. 結果報告。這里會(huì )用到基于 D3.js 的交互可視化,Rmarkdown 自動(dòng)化報告以及 Shiny 應用。
? ? ? 數據科學(xué)家需要另外掌握的一個(gè)重要的技能是分析建模。圖2 是數據流程構架圖,這個(gè)模塊可以進(jìn)一步細分成下面幾個(gè):?
? ? ? 數據科學(xué)家應該具備基本的概率統計知識,能夠熟練進(jìn)行 t 檢驗,開(kāi)方檢驗,擬合優(yōu)度檢驗,方差分析。能夠清楚地解釋 Spearman 秩相關(guān)和 Pearson 相關(guān)之間的區別。熟悉抽樣、概率分布、實(shí)驗設計相關(guān)概念。了解貝葉斯統計(很快就能在白板上寫(xiě)下貝葉斯定理)。不是所有的應用數據科學(xué)領(lǐng)域都需要用到貝葉斯,即使你所處的行業(yè)用得很少,了解貝葉斯的基本概念也是很有必要的。使用“貝葉斯”這個(gè)詞的方式有很多。但其主要代表了一種解釋概率的特別方式。用流行的術(shù)語(yǔ)表達,貝葉斯推斷不外乎計算在某假設下事情可能發(fā)生的方式的數目。事情發(fā)生方式多的假設成立的可能性更高。一旦我們定義了假設,貝葉斯推斷強制施行一種通過(guò)已經(jīng)觀(guān)測到的信息進(jìn)行純邏輯的推理過(guò)程。所以,在很多應用場(chǎng)景中,貝葉斯也更加合適。?機器學(xué)習相關(guān)技能。知道什么是有監督學(xué)習,什么是無(wú)監督學(xué)習。知道重要的聚類(lèi)、判別和回歸方法。知道基于罰函數的模型,關(guān)聯(lián)法則分析。常用的黑箱模型:隨機森林、自適性助推、神經(jīng)網(wǎng)絡(luò )模型。如果從事心理相關(guān)的應用的話(huà)(如消費者認知調查),還需要知道基本的潛變量模型,如探索性因子分析、驗證性因子分析、結構方程模型。在應用過(guò)程中還需要加強對模型中誤差的來(lái)源分類(lèi)的理解,知道相應誤差的應對方法。當前存在的機器模型太多,理解模型誤差可以幫助你有效地通過(guò)嘗試少量模型找到足夠好的那個(gè)。?除了技術(shù)能力以外,還需要其他一些非技術(shù)的能力。這些包括將實(shí)際問(wèn)題轉化成數據問(wèn)題的能力,這一過(guò)程需要交流,也就要求良好的交流溝通能力。關(guān)注細節,分析是一個(gè)需要細心和耐心的職業(yè)。還有就是展示結果的能力,如何讓沒(méi)有分析背景的客戶(hù)理解模型的結果,并且最終在實(shí)踐中應用模型的結論。這個(gè)單子還可以一直列下去??雌饋?lái)是不是不只一點(diǎn)嚇人?其實(shí)這個(gè)技能單是動(dòng)態(tài)的,你一開(kāi)始不必具有上面列出的所有技能,但在工作過(guò)程中,需要不斷的學(xué)習成長(cháng)。一個(gè)優(yōu)秀的數據科學(xué)家不是通過(guò)數據找到標準答案的人,而是那個(gè)接受和適應這個(gè)充滿(mǎn)不確定性的世界,給出有用方案的人。一個(gè)成熟的數據科學(xué)家面對分析項目時(shí)會(huì )看到多種可能性和多種分析方法,給出結果后依舊時(shí)刻關(guān)注這個(gè)結果,不停地保持小幅度頻繁更新。再次強調自學(xué)能力和成為一個(gè)終生學(xué)習者是優(yōu)秀的數據科學(xué)家的必要條件。
二、如何獲取上述技能?
? ? ? ?現在你對數據科學(xué)家需要具備的技能應該有個(gè)大致的概念了。接下來(lái)的問(wèn)題是如何獲取這些技能。這個(gè)問(wèn)題的答案部分取決于你的專(zhuān)業(yè)背景。當前數據科學(xué)家的背景其實(shí)很雜,這里主要著(zhù)眼于數學(xué)、統計、計算機或其它定量分析學(xué)科(電子工程、運籌學(xué)等)本科以上學(xué)歷的情況。數學(xué)統計背景的學(xué)生,需要加強計算機方面能力的培養。而計算機背景的學(xué)生需要更多地了解統計理論。如果是其他定量分析學(xué)科,可能需要同時(shí)加強這兩者。其他專(zhuān)業(yè)的學(xué)生成為數據科學(xué)家有兩種情況:從事和自己專(zhuān)業(yè)相關(guān)行業(yè)公司的數據分析。比如在一些精準農業(yè)應用的公司,會(huì )常??吹綌祿茖W(xué)家是生態(tài)學(xué)博士,或者土壤學(xué)博士。其實(shí)這些人不能算是廣義上的數據科學(xué)家。因為他們處理的問(wèn)題局限于非常特定的領(lǐng)域,對生態(tài)和土壤的了解的要求高于對數據分析的要求。雖然是其他專(zhuān)業(yè),但是本身有著(zhù)很強的計算機技能,比如物理學(xué)專(zhuān)業(yè)的學(xué)生會(huì )成為數據科學(xué)家或者量化交易員,這因為他們通常具有很好的編程能力。
? ? ? ?關(guān)于數據科學(xué)家的學(xué)位背景,根據2017年的統計數據,美國的數據科學(xué)家41%有博士學(xué)位,49%有碩士學(xué)位,只有10%是本科。研究生博士期間的課題最好偏向機器學(xué)習、數據挖掘或預測模型。其次需要的是數據庫操作技能。在工作中通常需要用 SQL 從數據庫讀取數據。對于統計或者數學(xué)專(zhuān)業(yè)的學(xué)生,在校期間可能不需要使用 SQL,因此不太熟悉。這沒(méi)有關(guān)系,我也是工作以后才開(kāi)始使用 SQL 的。但你要確保自己至少精通一種程序語(yǔ)言,之后遇到需要用到的新語(yǔ)言可以迅速學(xué)習?,F在有大量的 MOOC 課程,以及一些在線(xiàn)的數據科學(xué)視頻,都是提升自己的很好方法。?
三、在數據科學(xué)的應用中有哪些常見(jiàn)誤區?會(huì )用函數跑模型就可以了?
會(huì )開(kāi)車(chē)的只是司機,要當汽車(chē)工程師,僅靠會(huì )開(kāi)車(chē)是不行的。這點(diǎn)放在數據科學(xué)領(lǐng)域也是一樣。不需要你背下模型背后的所有數學(xué)公式,但是至少需要學(xué)過(guò)一遍,讓你可以翻著(zhù)書(shū)解釋模型機理。
模型精確度越高越好?
在實(shí)際應用中需要同時(shí)考慮收益和成本。如果模型精確度是90%,但是提高到95%需要復雜得多的模型。因此需要大量的計算設備投入,同時(shí)帶來(lái)的邊際收益很小的話(huà),滿(mǎn)足于精確度小的模型就好了。模型選擇和評估可能是數據分析流程中最難的環(huán)節。
技術(shù)過(guò)硬就是尚方寶劍?
人常常是不理性的,我們的行為和對周遭的態(tài)度受感情的影響。我們總是會(huì )對所有的事情加上自己的主觀(guān)判斷。當然,你公司的同事,領(lǐng)導看待你的方式也受到主觀(guān)的影響。很遺憾,這個(gè)主觀(guān)的感受通常更多的來(lái)自于你作為人的部分,而不是機器的部分。你覺(jué)得自己技術(shù)好是一件事情,領(lǐng)導覺(jué)得你技術(shù)好是另一件事情,領(lǐng)導覺(jué)得你的技術(shù)是有用的那又是新的一件事情了。所以“做技術(shù)”不等于“情商低點(diǎn)沒(méi)關(guān)系”。技術(shù)不斷更新,被泡沫裹挾著(zhù)失去方向?
不斷升級將會(huì )是一種常態(tài),這不僅僅是數據科學(xué),你必須這么做,因為所有的東西都在升級,就像軍備競賽一樣,升級已經(jīng)成為事物本身的存在方式。面對不懂的技術(shù),要么就說(shuō)不懂,要么就去學(xué)。其實(shí)你真正鼓起勇氣,開(kāi)始認真去學(xué)習這門(mén)技術(shù)的時(shí)候,會(huì )發(fā)現其實(shí)沒(méi)有那么神秘。當然,馬上又會(huì )有新的神秘的東西出現,這個(gè)過(guò)程又會(huì )重復。但你就是在這樣循環(huán)反復中成長(cháng)的,產(chǎn)品是這樣,人也是這樣。
四、數據科學(xué)領(lǐng)域現狀
我們從數據上看看數據科學(xué)的現狀吧。從最大的職業(yè)社交網(wǎng)站領(lǐng)英( LinkedIn )的數據看來(lái),數據科學(xué)家職位的年薪在7.5萬(wàn)~17萬(wàn)美元之間,中位數是11.3萬(wàn)美元。其中雇傭數據科學(xué)家的公司主要集中在微軟、IBM、Fackbook、亞馬遜、Google這些計算機互聯(lián)網(wǎng)公司,圖3 為前10名雇傭數據科學(xué)家最多的公司。
數據科學(xué)家所處的行業(yè)也集中在科技或者研究性組織,圖4是排名前10的行業(yè)。
不同公司的數據科學(xué)團隊架構不一樣。主要有如下2種:
1. 獨立式。獨立的數據科學(xué)部門(mén),會(huì )有一個(gè)數據科學(xué)總監這樣的領(lǐng)導角色領(lǐng)導。這通常在研究所或者公司科研型的部門(mén)。對于數據科學(xué)家而言,在這樣部門(mén)的優(yōu)點(diǎn)是能夠和很多其他數據科學(xué)家有技術(shù)上的交流,也有明確的職業(yè)軌道。
缺點(diǎn)是,很難脫穎而出,需要和很多其他科學(xué)家競爭一些資源(比如培訓會(huì )議的機會(huì ))。
2. 嵌入式。數據科學(xué)家各自嵌入到不同的職能部門(mén)中。常見(jiàn)的是市場(chǎng)部的數據科學(xué)家。領(lǐng)導者就是傳統的市場(chǎng)總監。在這樣的團隊優(yōu)勢在于直接和公司高層接觸,影響商業(yè)決策。因為獨特很容易脫穎而出獲取很多行業(yè)內培訓和會(huì )議的機會(huì ),而且市場(chǎng)部是核心部門(mén),如果你想在這個(gè)公司發(fā)展,這是很好的地方。缺點(diǎn)就是,無(wú)法和其他數據科學(xué)家交流,很多東西需要自己決策,周?chē)酥荒苓x擇相信或者不相信你,但不能給出特別的幫助。久了會(huì )有在專(zhuān)業(yè)上落后的危險,所以需要充分利用在市場(chǎng)部的培訓會(huì )議資源,積極參與數據科學(xué)家社區。最大的缺點(diǎn)是沒(méi)有清晰的職業(yè)軌跡,因為在市場(chǎng)內部的分析團隊不會(huì )太大。如果你的職業(yè)目標是最后管理一個(gè)大團隊或者職能的話(huà),這可能不能滿(mǎn)足你的目標。但其職位本身從初級到高級的跨度可以很大。
數據科學(xué)家這個(gè)職位還比較新,所以從團隊建設和職業(yè)軌跡上都還在發(fā)展,具有很好的前景。
希望你能成為一個(gè)不斷思考,終生學(xué)習的數據科學(xué)家!