21/04/2026
台大人工智慧實作課程 AI大數據分析實作(分類、迴歸、時間序列)
一、系統操作與分類模型基礎
資料分析分為「分類」、「迴歸」跟「時間序列」這三種。以鐵達尼號(Titanic)資料集為例,使用者依序點選 open training input file 和 open inference input file 即可載入資料。
系統內部支援多種機器學習演算法,其中 XGBoost 比較通用,而 LGBM 則適用於資料筆數超過一萬筆時,預測會比較準確。大數據分析通常只需利用 CPU 進行加速即可,GPU 的加速效果不如影像分析或大型語言模型那樣明顯。在執行自動分析後,系統會產出基於推論組正確率排名的報表。在訓練資料與推論資料比數為 1:1 的情況下,推論的正確率大約落在 75% 左右。然而在學術界作法中,若將訓練與推論資料比數調為 9:1,正確率自然就會大幅提升。
---
二、資料空間(Data Space)與資料清洗
在建立 AI 模型時,心中必須要有「資料空間」的概念,也就是要評估收集到的資料在空間內分佈是否夠完整。為了解決人類大腦難以理解高維度空間的問題,通常會將三維或更多維度的資料,依序壓扁並映射(Mapping)到二維平面上來進行視覺化。若測試資料剛好落在訓練資料分佈的範圍附近,模型預測就會很準;如果落在空間外,預測就會失準。
在進入訓練前必須先做資料清洗,主要包含剔除冗餘(redundant)的重複資料以及不合理的值(outlier),以避免拖慢訓練速度並提高準確性。此外,業界在訓練模型時,為了證明模型的強健度(Robustness),會將比例反轉為訓練佔 1、測試佔 9,其關鍵依然在於盡可能收集會落在測試點位附近的訓練樣本。
---
三、關鍵因子(Feature Importance)與數學函數概念
所有的 AI 分析本質上都能用數學函數 f(X1, X2, X3,...,Xn) = Y 來表示,X 代表輸入的變量,Y 代表預測的結果。舉例來說,若要預測台積電今天的收盤價,輸入的關鍵變量就可以包含早上的開盤價、昨天的收盤價與成交量等。
特別強調,千萬不要將多個預測目標(如收盤價與成交量)混在同一個模型裡預測,這會造成相互干擾導致不準,應該拆分成獨立的模型來訓練:
f(X1, X2, X3, ..., Xn) = Y1
f(X1, X2, X4, ..., Xn) = Y2
透過系統內的 SHAP 分析,可以抓出影響預測的關鍵因子。在鐵達尼號的案例中,「性別」(佔約 65%)與「艙等」(佔約 22%)是決定生存與否的絕對關鍵,兩者相加幾乎決定了 90% 的存活率,而年齡與票價反而不重要。一旦找出了關鍵因子,就可以把不重要的變數從資料庫中刪除並重新訓練,這樣不僅能減少雜訊干擾,還能維持一樣好的準確度。另外,當輸入的特徵(X)變多時,所需準備的訓練樣本數就會呈現幾何級數(如相乘)的暴增,才能確保資料空間的均勻度。
---
四、演算法特性與非線性資料(Non-linear Data)測試
演算法的運作方式會影響其速度,例如 XGBoost 是使用數學上的二元樹(If-Else 邏輯)來代替神經網路,因此運算速度非常快;相對地,傳統類神經網路因為需要計算複雜的激活函數,運算量就大很多。
為了驗證演算法是否能夠處理非線性資料,實務上常會輸入正弦波(Sine wave)或 XOR 資料集作為量測標準。測試結果顯示,多重線性迴歸(Multiple Linear Regression)明顯無法支援正弦波的預測,只會畫出一條直線。而老牌的支援向量機(SVM)在面對非線性資料時也容易產生偏差(bias);LGBM 則因為餵入的資料筆數太少而表現不佳。總結來說,最推薦 XGBoost 演算法,無論是運算速度、分類還是迴歸表現,整體性能都相當優異。
---
五、迴歸分析(Regression)與進階演算法
相較於分類模型輸出類別,迴歸(Regression)模型的目標是預測出具體的數值(例如預測波士頓房價的具體數字)。
---
補充重點
資料空間:超過二維的資料壓縮到二維平面,易於了解。
資料分析 SOP:建立模型,先定義輸入 X 及輸出 Y,再找出 f,由 X 算出 Y,並找出特徵參數。單一模型只預測一個變量,若有多個輸出應拆成多個模型。
非線性支援測試:用 sin 及 xor 的資料集決定演算法是否可以支援非線性。
---
分類演算法(Classification)與特徵重要性
特徵分析(Feature Importance 與 SHAP):模型分析結果顯示,「性別」與「艙等/票價」是影響生存率的關鍵特徵。
模型優化原則:實務上(如股票預測)常會輸入數千個特徵,但真正具影響力的往往只有少數幾個。剔除不重要的特徵不會降低準確率,反而能避免模型受雜訊干擾,提升運算效率。
---
迴歸分析(Regression)與演算法評估
實作案例:正弦波(Sine wave)非線性預測與波士頓房價預測。
演算法比較:
SVM(支持向量機):運算與推論速度極快,為早期算力不足時的主流。
LightGBM:適合處理一萬筆以上的巨量資料,但不適合用於預測股票或金融指數(易出現鋸齒狀誤差)。
XGBoost:預測表現優異,為最推薦的首選演算法。
線性迴歸:無法準確預測具備非線性特徵的股價。
評估指標:實務與業界更傾向參考 MAE(平均絕對誤差)來評估預測準確度,而非僅看 R-square 或 RMSE。
---
時間序列分析(Time Series)與資料轉換技巧
實作案例:航空公司機位銷售預測。
資料展開技巧:時間序列的核心原理可轉換為迴歸問題。系統會將過去一段時間的資料(如 12 個月的歷史紀錄)展開為多個輸入特徵(X1 到 X12),藉此預測下一個月(Y)的數值。此轉換可直接套用 XGBoost 等迴歸演算法進行分析。
加入外部變數,可大幅提升預測精準度。