電子報：旗標學習報: 5 步驟輕鬆搞定資料科學，我們把一切變簡單了！

網頁版

我們把一切變簡單了！
學資料科學：5 步驟輕鬆搞定

「資料科學好雜喔！」這可能是您想自學時 , 稍微上網搜尋 "資料科學" 就會有的感覺 , 因為搜出來的文章實在五花八門 , AI、機器學習、程式設計、資料視覺化、數學、統計 ... 等等 , 一拖拉庫的名詞都與資料科學沾上邊 , 有人說：「人工智慧並不神秘 , 不過就是問個好問題」, 資料科學也是如此。從想到感興趣的問題開始, 透過如下圖的資料科學步驟 , 先「取得」資料 , 再對資料進行「處理」、「探索」及「分析」, 進而取得問題的「可能答案」。資料科學就這麼簡單！底下就帶你快速體驗一個資料科學的例子。

如果我是一間飲料店的老闆 , 我感興趣的問題就可能是：

第一步先取得資料 , 這個例子的資料手邊就有 , 例如茶飲店連續 20天所記錄的當天氣溫和火焰黑豹珍奶銷售量：

取得的資料通常需要做資料處理 , 例如檢查各行並適當調整資料型別、缺失值的補值或刪除、刪除重複值或異常值 , 才可進一步將資料分割為特徵值 (Feature) 及標籤 (Label)。本例使用的資料很單純 , 假設並不需要資料處理的工作。

接下來是做「探索性資料分析 (Exploratory Data Analysis)」 , 進一步發掘隱藏在資料之中的秘密。進行複雜或嚴謹的分析之前 , 必須要對資料有更多認識 , 才能訂定「對」的分析方向 , 最後得到「有用」的結論。
這裡就利用「資料視覺化」, 由氣溫與銷售量的散佈圖中 , 我們探索出「隨著氣溫的上升 , 銷售量真的會出現遞減」的情形。

最後是用大名鼎鼎的「機器學習」進一步做資料分析。如果要以氣溫和火焰黑豹珍奶銷售量做為機器學習中線性迴歸所需的資料 , 必須提供特徵值 (Feature) 以及標籤 (Label) 資料。機器學習特徵值資料的變數名稱慣用大寫 X、標籤資料則是慣用小寫 y 的方式來呈現 , 類似數學函數的概念：輸入 X 值 , 經過運算後 , 得到結果 y。

本例想要利用機器學習由氣溫的變化來預測火焰黑豹珍奶可能的銷售量 , 這樣的預測功能可以運用 Python 的 sklearn 提供的線性迴歸函式LinearRegression(), 只要簡單幾個步驟 , 就可以建好用來預測的模型了：

模型建好後就可以拿來實際預測了。以上這樣就體驗過一輪資料科學囉！如何 , 沒想像的複雜吧！要是您想體驗其他範例 , 或者進一步了解資科科學乃至於機器學習各階段要處理的「眉眉角角」, 可以參閱旗標出版的「超圖解資料科學✕機器學習實戰探索 – 使用 Python」一書 , 該書設計大量插圖 , 並備有「學習地圖」讓您隨時掌握脈絡！

新書上市79折

取消訂閱

2021年6月18日 星期五

5 步驟輕鬆搞定資料科學，我們把一切變簡單了！

2021年6月18日星期五