問題定義
![序列最小最佳化算法](/img/9/dad/wZwpmL2UDN4QDM1kjNwMzM1UTM1QDN5MjM5ADMwAjMwUzL5YzL1QzLt92YucmbvRWdo5Cd0FmLwE2LvoDc0RHa.jpg)
![序列最小最佳化算法](/img/9/ef6/wZwpmLwcDNxMDN5gjNwMzM1UTM1QDN5MjM5ADMwAjMwUzL4YzL4UzLt92YucmbvRWdo5Cd0FmLwE2LvoDc0RHa.jpg)
![序列最小最佳化算法](/img/d/bca/wZwpmL2ATMxMDM4YzNwMzM1UTM1QDN5MjM5ADMwAjMwUzL2czL2AzLt92YucmbvRWdo5Cd0FmL0E2LvoDc0RHa.jpg)
SMO算法主要用於解決支持向量機目標函式的最最佳化問題。考慮數據集 的二分類問題,其中 是輸入向量, 是向量的類別標籤,只允許取兩個值。一個軟邊緣支持向量機的目標函式最最佳化等價於求解以下二次規劃問題的最大值:
![序列最小最佳化算法](/img/0/cec/wZwpmL4cDN1YDM4gDOxMzM1UTM1QDN5MjM5ADMwAjMwUzL4gzLwQzLt92YucmbvRWdo5Cd0FmLyE2LvoDc0RHa.jpg)
滿足:
![序列最小最佳化算法](/img/9/985/wZwpmL4YDM1EzN4QDOxMzM1UTM1QDN5MjM5ADMwAjMwUzL0gzLwYzLt92YucmbvRWdo5Cd0FmLzE2LvoDc0RHa.jpg)
![序列最小最佳化算法](/img/f/951/wZwpmLxEzM3QjM2QTOwMzM1UTM1QDN5MjM5ADMwAjMwUzL0kzL4AzLt92YucmbvRWdo5Cd0FmLzE2LvoDc0RHa.jpg)
![序列最小最佳化算法](/img/b/be3/wZwpmLxUTN2gTM5cTO4kzM0UTMyITNykTO0EDMwAjMwUzL3kzL1YzLt92YucmbvRWdo5Cd0FmLyE2LvoDc0RHa.jpg)
![序列最小最佳化算法](/img/f/298/wZwpmLzgDMxEjN2EDMyMzM1UTM1QDN5MjM5ADMwAjMwUzLxAzL4gzLt92YucmbvRWdo5Cd0FmLzE2LvoDc0RHa.jpg)
其中, 是SVM的參數,而 是核函式。這兩個參數都需要使用者制定。
算法
![序列最小最佳化算法](/img/9/741/wZwpmL0AzN1YjN3AzNwMzM1UTM1QDN5MjM5ADMwAjMwUzLwczL1IzLt92YucmbvRWdo5Cd0FmLyE2LvoDc0RHa.jpg)
![序列最小最佳化算法](/img/8/cb0/wZwpmL0MzN1cDN1cTOwMzM1UTM1QDN5MjM5ADMwAjMwUzL3kzLxgzLt92YucmbvRWdo5Cd0FmLyE2LvoDc0RHa.jpg)
![序列最小最佳化算法](/img/8/1e8/wZwpmLxEjNxQTNzETOxMzM1UTM1QDN5MjM5ADMwAjMwUzLxkzL3gzLt92YucmbvRWdo5Cd0FmLyE2LvoDc0RHa.jpg)
![序列最小最佳化算法](/img/6/326/wZwpmL4IDO0ITOxUjMxMzM1UTM1QDN5MjM5ADMwAjMwUzL1IzL2UzLt92YucmbvRWdo5Cd0FmLwE2LvoDc0RHa.jpg)
SMO是一種解決此類支持向量機最佳化問題的疊代算法。由於目標函式為凸函式,一般的最佳化算法都通過梯度方法一次最佳化一個變數求解二次規劃問題的最大值,但是,對於以上問題,由於限制條件 存在,當某個 ,從 更新到 時,上述限制條件即被打破。為了克服以上的困難,SMO採用一次更新兩個變數的方法。
數學推導
![序列最小最佳化算法](/img/d/944/wZwpmL2YjMzkzN0MTOwMzM1UTM1QDN5MjM5ADMwAjMwUzLzkzL0AzLt92YucmbvRWdo5Cd0FmLwE2LvoDc0RHa.jpg)
![序列最小最佳化算法](/img/9/84a/wZwpmLwQTN4gzM2czNwMzM1UTM1QDN5MjM5ADMwAjMwUzL3czL2EzLt92YucmbvRWdo5Cd0FmLxE2LvoDc0RHa.jpg)
假設算法在某次更新時更新的變數為 和 ,則其餘變數都可以視為常量。為了描述方便,規定
![序列最小最佳化算法](/img/f/fc7/wZwpmL4QDO1gTOxkjNwMzM1UTM1QDN5MjM5ADMwAjMwUzL5YzL4AzLt92YucmbvRWdo5Cd0FmLwE2LvoDc0RHa.jpg)
![序列最小最佳化算法](/img/1/eda/wZwpmL2cDO0UzMyATOxMzM1UTM1QDN5MjM5ADMwAjMwUzLwkzL2UzLt92YucmbvRWdo5Cd0FmLyE2LvoDc0RHa.jpg)
因而,二次規劃目標值可以寫成
![序列最小最佳化算法](/img/4/c25/wZwpmL1UzNwIDN1QTOxMzM1UTM1QDN5MjM5ADMwAjMwUzL0kzLwQzLt92YucmbvRWdo5Cd0FmLwE2LvoDc0RHa.jpg)
![序列最小最佳化算法](/img/9/741/wZwpmL0AzN1YjN3AzNwMzM1UTM1QDN5MjM5ADMwAjMwUzLwczL1IzLt92YucmbvRWdo5Cd0FmLyE2LvoDc0RHa.jpg)
![序列最小最佳化算法](/img/d/435/wZwpmL0cTNyMTNyMTOwMzM1UTM1QDN5MjM5ADMwAjMwUzLzkzLyMzLt92YucmbvRWdo5Cd0FmL0E2LvoDc0RHa.jpg)
![序列最小最佳化算法](/img/6/20c/wZwpmL1ETM3gDOyYDMxMzM1UTM1QDN5MjM5ADMwAjMwUzL2AzLyAzLt92YucmbvRWdo5Cd0FmLwE2LvoDc0RHa.jpg)
![序列最小最佳化算法](/img/d/bca/wZwpmL2ATMxMDM4YzNwMzM1UTM1QDN5MjM5ADMwAjMwUzL2czL2AzLt92YucmbvRWdo5Cd0FmL0E2LvoDc0RHa.jpg)
![序列最小最佳化算法](/img/3/b74/wZwpmL2MjNyEzN5cjNxMzM1UTM1QDN5MjM5ADMwAjMwUzL3YzL4IzLt92YucmbvRWdo5Cd0FmLyE2LvoDc0RHa.jpg)
![序列最小最佳化算法](/img/5/0b3/wZwpmL2gDO3YTN3ADO3EDN0UTMyITNykTO0EDMwAjMwUzLwgzLyQzLt92YucmbvRWdo5Cd0FmLwE2LvoDc0RHa.jpg)
![序列最小最佳化算法](/img/e/939/wZwpmL1UDN5AjNxkjNwMzM1UTM1QDN5MjM5ADMwAjMwUzL5YzL4gzLt92YucmbvRWdo5Cd0FmLzE2LvoDc0RHa.jpg)
![序列最小最佳化算法](/img/9/085/wZwpmL0gDNwMDMxkDOxMzM1UTM1QDN5MjM5ADMwAjMwUzL5gzLwMzLt92YucmbvRWdo5Cd0FmLzE2LvoDc0RHa.jpg)
![序列最小最佳化算法](/img/9/84a/wZwpmLwQTN4gzM2czNwMzM1UTM1QDN5MjM5ADMwAjMwUzL3czL2EzLt92YucmbvRWdo5Cd0FmLxE2LvoDc0RHa.jpg)
由於限制條件 存在,將 看作常數,則有 成立( C為常數)。由於 ,從而 ( 為變數 , )。取 為最佳化變數,則上式又可寫成
![序列最小最佳化算法](/img/8/e33/wZwpmL3MTNygTN1MTOwMzM1UTM1QDN5MjM5ADMwAjMwUzLzkzLyczLt92YucmbvRWdo5Cd0FmLzE2LvoDc0RHa.jpg)
![序列最小最佳化算法](/img/9/84a/wZwpmLwQTN4gzM2czNwMzM1UTM1QDN5MjM5ADMwAjMwUzL3czL2EzLt92YucmbvRWdo5Cd0FmLxE2LvoDc0RHa.jpg)
對 求偏導以求得最大值,有
![序列最小最佳化算法](/img/5/4a4/wZwpmLyQTMwUTMwcDMxMzM1UTM1QDN5MjM5ADMwAjMwUzL3AzL1QzLt92YucmbvRWdo5Cd0FmLxE2LvoDc0RHa.jpg)
因此,可以得到
![序列最小最佳化算法](/img/6/189/wZwpmL3MjMwAzN4YTMxMzM1UTM1QDN5MjM5ADMwAjMwUzL2EzL1QzLt92YucmbvRWdo5Cd0FmLzE2LvoDc0RHa.jpg)
![序列最小最佳化算法](/img/d/363/wZwpmL3EzN0UDO1ITOwMzM1UTM1QDN5MjM5ADMwAjMwUzLykzLygzLt92YucmbvRWdo5Cd0FmLxE2LvoDc0RHa.jpg)
![序列最小最佳化算法](/img/d/0f8/wZwpmLyADNxETNzQTOxMzM1UTM1QDN5MjM5ADMwAjMwUzL0kzLyQzLt92YucmbvRWdo5Cd0FmLwE2LvoDc0RHa.jpg)
![序列最小最佳化算法](/img/e/068/wZwpmL1UDM5kTM4IzNxMzM1UTM1QDN5MjM5ADMwAjMwUzLyczL4IzLt92YucmbvRWdo5Cd0FmL0E2LvoDc0RHa.jpg)
規定誤差項 ,取 ,並規定 ,上述結果可以化簡為
![序列最小最佳化算法](/img/e/253/wZwpmL1QTN3MDN0QTOwMzM1UTM1QDN5MjM5ADMwAjMwUzL0kzL1IzLt92YucmbvRWdo5Cd0FmL0E2LvoDc0RHa.jpg)
![序列最小最佳化算法](/img/3/f97/wZwpmLxcDO5QTN4kjNwMzM1UTM1QDN5MjM5ADMwAjMwUzL5YzLxMzLt92YucmbvRWdo5Cd0FmLxE2LvoDc0RHa.jpg)
![序列最小最佳化算法](/img/a/0ac/wZwpmL2YjM2MTM3cDMyMzM1UTM1QDN5MjM5ADMwAjMwUzL3AzL0MzLt92YucmbvRWdo5Cd0FmLzE2LvoDc0RHa.jpg)
![序列最小最佳化算法](/img/9/95b/wZwpmL2gjMyQzN0ITOwMzM1UTM1QDN5MjM5ADMwAjMwUzLykzLzMzLt92YucmbvRWdo5Cd0FmLyE2LvoDc0RHa.jpg)
![序列最小最佳化算法](/img/0/58f/wZwpmLwEzMzIjM0czNwMzM1UTM1QDN5MjM5ADMwAjMwUzL3czLyMzLt92YucmbvRWdo5Cd0FmLzE2LvoDc0RHa.jpg)
再考慮限制條件 的取值只能為直線 落在 矩形中的部分。因此,具體的SMO算法需要檢查 的值以確認這個值落在約束區間之內 。
算法框架
![序列最小最佳化算法](/img/0/58f/wZwpmLwEzMzIjM0czNwMzM1UTM1QDN5MjM5ADMwAjMwUzL3czLyMzLt92YucmbvRWdo5Cd0FmLzE2LvoDc0RHa.jpg)
![序列最小最佳化算法](/img/6/297/wZwpmL4gDO4MjM0YzNwMzM1UTM1QDN5MjM5ADMwAjMwUzL2czL4IzLt92YucmbvRWdo5Cd0FmLxE2LvoDc0RHa.jpg)
![序列最小最佳化算法](/img/6/af6/wZwpmLyIjNycjN0kjNwMzM1UTM1QDN5MjM5ADMwAjMwUzL5YzL2UzLt92YucmbvRWdo5Cd0FmLzE2LvoDc0RHa.jpg)
![序列最小最佳化算法](/img/6/297/wZwpmL4gDO4MjM0YzNwMzM1UTM1QDN5MjM5ADMwAjMwUzL2czL4IzLt92YucmbvRWdo5Cd0FmLxE2LvoDc0RHa.jpg)
![序列最小最佳化算法](/img/0/58f/wZwpmLwEzMzIjM0czNwMzM1UTM1QDN5MjM5ADMwAjMwUzL3czLyMzLt92YucmbvRWdo5Cd0FmLzE2LvoDc0RHa.jpg)
SMO算法是一個疊代最佳化算法。在每一個疊代步驟中,算法首先選取兩個待更新的向量,此後分別計算它們的誤差項,並根據上述結果計算出 和 。最後再根據SVM的定義計算出偏移量 。對於誤差項而言,可以根據 、 和b的增量進行調整,而無需每次重新計算。具體的算法如下:
![序列最小最佳化算法](/img/9/7f2/wZwpmLxATN1MTN1MzNwIDN0UTMyITNykTO0EDMwAjMwUzLzczL2gzLt92YucmbvRWdo5Cd0FmLyE2LvoDc0RHa.jpg)
![序列最小最佳化算法](/img/6/af6/wZwpmLyIjNycjN0kjNwMzM1UTM1QDN5MjM5ADMwAjMwUzL5YzL2UzLt92YucmbvRWdo5Cd0FmLzE2LvoDc0RHa.jpg)
1、隨機數初始化向量權重 ,並計算偏移量
![序列最小最佳化算法](/img/0/ea8/wZwpmL4ITM0cTOxQTOwMzM1UTM1QDN5MjM5ADMwAjMwUzL0kzLwAzLt92YucmbvRWdo5Cd0FmLwE2LvoDc0RHa.jpg)
2、初始化誤差項
3、 選取兩個向量作為需要調整的點
![序列最小最佳化算法](/img/5/0ca/wZwpmLzITN3MDN0QTOwMzM1UTM1QDN5MjM5ADMwAjMwUzL0kzL3EzLt92YucmbvRWdo5Cd0FmLzE2LvoDc0RHa.jpg)
4、令
![序列最小最佳化算法](/img/6/635/wZwpmLyITOyUzN1cjNxMzM1UTM1QDN5MjM5ADMwAjMwUzL3YzL3QzLt92YucmbvRWdo5Cd0FmLzE2LvoDc0RHa.jpg)
5、如果
![序列最小最佳化算法](/img/6/5fb/wZwpmL4QDM1kzN1czNxMzM1UTM1QDN5MjM5ADMwAjMwUzL3czL1YzLt92YucmbvRWdo5Cd0FmLwE2LvoDc0RHa.jpg)
6、令
![序列最小最佳化算法](/img/1/b44/wZwpmL4ETN0YTO5UTMxMzM1UTM1QDN5MjM5ADMwAjMwUzL1EzL3UzLt92YucmbvRWdo5Cd0FmLxE2LvoDc0RHa.jpg)
7、如果
![序列最小最佳化算法](/img/6/4f3/wZwpmLyIjN1MTOzkjNwMzM1UTM1QDN5MjM5ADMwAjMwUzL5YzLyIzLt92YucmbvRWdo5Cd0FmLzE2LvoDc0RHa.jpg)
8、令
![序列最小最佳化算法](/img/4/cc6/wZwpmLzgzM3QDO1EjMxMzM1UTM1QDN5MjM5ADMwAjMwUzLxIzLzQzLt92YucmbvRWdo5Cd0FmLwE2LvoDc0RHa.jpg)
9、令
![序列最小最佳化算法](/img/6/297/wZwpmL4gDO4MjM0YzNwMzM1UTM1QDN5MjM5ADMwAjMwUzL2czL4IzLt92YucmbvRWdo5Cd0FmLxE2LvoDc0RHa.jpg)
![序列最小最佳化算法](/img/0/58f/wZwpmLwEzMzIjM0czNwMzM1UTM1QDN5MjM5ADMwAjMwUzL3czLyMzLt92YucmbvRWdo5Cd0FmLzE2LvoDc0RHa.jpg)
![序列最小最佳化算法](/img/0/ea8/wZwpmL4ITM0cTOxQTOwMzM1UTM1QDN5MjM5ADMwAjMwUzL0kzLwAzLt92YucmbvRWdo5Cd0FmLwE2LvoDc0RHa.jpg)
![序列最小最佳化算法](/img/6/af6/wZwpmLyIjNycjN0kjNwMzM1UTM1QDN5MjM5ADMwAjMwUzL5YzL2UzLt92YucmbvRWdo5Cd0FmLzE2LvoDc0RHa.jpg)
10、 利用更新的 和 修改 和 的值
11、如果達到終止條件,則停止算法,否則轉3
![序列最小最佳化算法](/img/0/58f/wZwpmLwEzMzIjM0czNwMzM1UTM1QDN5MjM5ADMwAjMwUzL3czLyMzLt92YucmbvRWdo5Cd0FmLzE2LvoDc0RHa.jpg)
其中,U和V為 的下界和上界。特別地,有
![序列最小最佳化算法](/img/c/9ba/wZwpmLzYjM4QDO0UTOxMzM1UTM1QDN5MjM5ADMwAjMwUzL1kzLxYzLt92YucmbvRWdo5Cd0FmLwE2LvoDc0RHa.jpg)
![序列最小最佳化算法](/img/6/297/wZwpmL4gDO4MjM0YzNwMzM1UTM1QDN5MjM5ADMwAjMwUzL2czL4IzLt92YucmbvRWdo5Cd0FmLxE2LvoDc0RHa.jpg)
![序列最小最佳化算法](/img/f/7cd/wZwpmL4cjMzIjM0czNwMzM1UTM1QDN5MjM5ADMwAjMwUzL3czL0MzLt92YucmbvRWdo5Cd0FmLwE2LvoDc0RHa.jpg)
![序列最小最佳化算法](/img/f/ab1/wZwpmL1MjN1QzN0ITOwMzM1UTM1QDN5MjM5ADMwAjMwUzLykzLyQzLt92YucmbvRWdo5Cd0FmLzE2LvoDc0RHa.jpg)
這一約束的意義在於使得 和 均位於矩形域 中。
最佳化向量選擇方法
可以採用啟發式的方法選擇每次疊代中需要最佳化的向量。第一個向量可以選取不滿足支持向量機KKT條件的向量,亦即不滿足
![序列最小最佳化算法](/img/f/f31/wZwpmLzUDO0YTOxgjNxMzM1UTM1QDN5MjM5ADMwAjMwUzL4YzLxMzLt92YucmbvRWdo5Cd0FmLzE2LvoDc0RHa.jpg)
![序列最小最佳化算法](/img/a/c4c/wZwpmLwIDNxQDO2kzNwMzM1UTM1QDN5MjM5ADMwAjMwUzL5czL4YzLt92YucmbvRWdo5Cd0FmLyE2LvoDc0RHa.jpg)
的向量。而第二個向量可以選擇使得最大的向量。
終止條件
![序列最小最佳化算法](/img/9/a4a/wZwpmL1EjM4kTM0kjNwMzM1UTM1QDN5MjM5ADMwAjMwUzL5YzLyYzLt92YucmbvRWdo5Cd0FmL0E2LvoDc0RHa.jpg)
SMO算法的終止條件可以為KKT條件對所有向量均滿足,或者目標函式增長率小於某個閾值,即
![序列最小最佳化算法](/img/5/819/wZwpmL2QTNxIjMxUjMxMzM1UTM1QDN5MjM5ADMwAjMwUzL1IzL1EzLt92YucmbvRWdo5Cd0FmL0E2LvoDc0RHa.jpg)