线性回归与最小二乘

模型 $\hat y=\mathbf w^\top\mathbf x+b$,最小化平方误差 $\sum(y_i-\mathbf w^\top\mathbf x_i)^2$,闭式解
$\mathbf w=(X^\top X)^{-1}X^\top\mathbf y$
几何上是把 $\mathbf y$ 投影到特征列空间。

正则化

  • Ridge(L2):加 $\lambda|\mathbf w|_2^2$,收缩系数、改善病态;
  • Lasso(L1):加 $\lambda|\mathbf w|_1$,产生稀疏解、自动做特征选择。

逻辑回归

二分类用 Sigmoid 把线性得分压到 $(0,1)$:
$\sigma(z)=\frac1{1+e^{-z}},\qquad P(y=1\mid\mathbf x)=\sigma(\mathbf w^\top\mathbf x)$
基于伯努利分布做 MLE,得到交叉熵损失,梯度形式优美:$\nabla_{\mathbf w}L=\sum(\hat y_i-y_i)\mathbf x_i$。多分类用 Softmax 推广。

例题

 单特征逻辑回归,若 $\mathbf w^\top\mathbf x=0$ 则 $P(y=1)=\sigma(0)=0.5$,即决策边界;得分越大概率越接近 1。

应用

线性/逻辑回归是可解释建模的起点:信用评分、点击率预估、医学风险预测。Softmax + 交叉熵是所有分类神经网络的输出层;L1 稀疏性用于高维基因/文本特征筛选。