數學公式(Mathematical formulation)
許多標準機器學習方法可以被轉換為凸優化問題(convex optimization problem), 即一個找到凸函數最小值的任務,這個函數依賴於一個有d個值的向量變量(代碼中的weights)。更正式點,這是一個優化問題,其目標函數具有下面形式: 向量是訓練數據樣本,其中。 是相對應的類標簽,也是我們想要預測的目標。如果能被表述為和的一個函數,我們稱該方法為線性的,有機個MLlib分類和迴歸算法屬於該范疇,我們在此一一討論。
目標函數包括兩部份:控制模型複雜度的正則化因子和度量模型誤差的損失函數。損失函數是典型與相關的凸函數。事先鎖定正則化參數(代碼中的regParam)承載了我們在最小化損失量(訓練誤差)和最小化模型複雜度(避免過渡擬合)兩個目標之間的權衡取捨。