机器学习 - 梯度下降在多参数线性回归模型的应用以及解析

我们通过一个具体的例子来演示多变量线性回归中的梯度下降算法。

示例数据集

假设我们有一个简单的数据集，包含两个特征和一个目标值：

(x_1)	(x_2)	(y)
1	2	5
2	3	8
3	4	11
4	5	14

我们要训练一个线性回归模型，模型的形式为：
$f_{w,b}(x) = w_1 \cdot x_1 + w_2 \cdot x_2 + b$

梯度下降步骤

我们从随机初始化的参数 $w_1$ 、 $w_2$ 和 $b$ 开始，然后通过梯度下降算法迭代地更新这些参数。

初始化

假设：

初始权重 $w_1 = 0$ 、 $w_2 = 0$
初始偏置 $b = 0$
学习率 $\alpha = 0.01$
迭代次数为 2 次（为了简洁）

计算梯度

我们需要计算每个参数的偏导数，并用这些偏导数来更新参数。

第一次迭代

计算偏导数

计算预测值和误差:
$\text{预测值} \quad f_{w,b}(x^{(i)}) = w_1 \cdot x_1^{(i)} + w_2 \cdot x_2^{(i)} + b$
对于每个样本，我们计算预测值和误差：
- 对于第一个样本 (1, 2, 5):
  $f_{w,b}(x^{(1)}) = 0 \cdot 1 + 0 \cdot 2 + 0 = 0 \\ \text{误差} \quad = 0 - 5 = -5$
- 对于第二个样本 (2, 3, 8):
  $f_{w,b}(x^{(2)}) = 0 \cdot 2 + 0 \cdot 3 + 0 = 0 \\ \text{误差} \quad = 0 - 8 = -8$
- 对于第三个样本 (3, 4, 11):
  $f_{w,b}(x^{(3)}) = 0 \cdot 3 + 0 \cdot 4 + 0 = 0 \\ \text{误差} \quad = 0 - 11 = -11$
- 对于第四个样本 (4, 5, 14):
  $f_{w,b}(x^{(4)}) = 0 \cdot 4 + 0 \cdot 5 + 0 = 0 \\ \text{误差} \quad = 0 - 14 = -14$
计算梯度:
$\frac{\partial J}{\partial w_1} = \frac{1}{m} \sum_{i=1}^{m} (f_{w,b}(x^{(i)}) - y^{(i)}) \cdot x_1^{(i)} \\ \frac{\partial J}{\partial w_2} = \frac{1}{m} \sum_{i=1}^{m} (f_{w,b}(x^{(i)}) - y^{(i)}) \cdot x_2^{(i)} \\ \frac{\partial J}{\partial b} = \frac{1}{m} \sum_{i=1}^{m} (f_{w,b}(x^{(i)}) - y^{(i)})$

我们计算每个参数的梯度：
- 对于 $w_1$ :
  $\frac{\partial J}{\partial w_1} = \frac{1}{4} [(-5) \cdot 1 + (-8) \cdot 2 + (-11) \cdot 3 + (-14) \cdot 4] \\ = \frac{1}{4} (-5 - 16 - 33 - 56) \\ = \frac{1}{4} (-110) \\ = -27.5$
- 对于 $w_2$ :
  $\frac{\partial J}{\partial w_2} = \frac{1}{4} [(-5) \cdot 2 + (-8) \cdot 3 + (-11) \cdot 4 + (-14) \cdot 5] \\ = \frac{1}{4} (-10 - 24 - 44 - 70) \\ = \frac{1}{4} (-148) \\ = -37$
- 对于 $b$ :
  $\frac{\partial J}{\partial b} = \frac{1}{4} (-5 - 8 - 11 - 14) \\ = \frac{1}{4} (-38) \\ = -9.5$
更新参数:
$w_1 = w_1 - \alpha \frac{\partial J}{\partial w_1} = 0 - 0.01 (-27.5) = 0.275 \\ w_2 = w_2 - \alpha \frac{\partial J}{\partial w_2} = 0 - 0.01 (-37) = 0.37 \\ b = b - \alpha \frac{\partial J}{\partial b} = 0 - 0.01 (-9.5) = 0.095$

第二次迭代

重复上述步骤，以更新后的参数 $w_1$ 、 $w_2$ 和 $b$ 继续计算新的梯度，并更新参数。以下是简略的计算过程：

计算预测值和误差:
- 对于第一个样本 (1, 2, 5):
  $f_{w,b}(x^{(1)}) = 0.275 \cdot 1 + 0.37 \cdot 2 + 0.095 = 1.11 \\ \text{误差} = 1.11 - 5 = -3.89$
- 其他样本类似计算。
计算梯度:
- 对于 $w_1$ :
  $\frac{\partial J}{\partial w_1} \approx -21.23$
- 对于 $w_2$ :
  $\frac{\partial J}{\partial w_2} \approx -28.74$
- 对于 $b$ :
  $\frac{\partial J}{\partial b} \approx -6.83$
更新参数:
$w_1 = 0.275 - 0.01 (-21.23) = 0.4873 \\ w_2 = 0.37 - 0.01 (-28.74) = 0.6574 \\ b = 0.095 - 0.01 (-6.83) = 0.1633$

代码实现

def compute_gradient(X, y, w, b):
    m, n = X.shape
    dj_dw = np.zeros(n)
    dj_db = 0.0
    
    for i in range(m):
        error = (np.dot(X[i], w) + b) - y[i]
        for j in range(n):
            dj_dw[j] += error * X[i][j]
        dj_db += error
    
    dj_dw /= m
    dj_db /= m
    
    return dj_dw, dj_db

def gradient_descent(X, y, w, b, alpha, num_iters):
    for i in range(num_iters):
        dj_dw, dj_db = compute_gradient(X, y, w, b)
        w -= alpha * dj_dw
        b -= alpha * dj_db
    
    return w, b