哈工大-机器学习-实验二：Logistic Regression - 博客

[{"createTime":1735734952000,"id":1,"img":"hwy_ms_500_252.jpeg","link":"https://activity.huaweicloud.com/cps.html?fromacct=261f35b6-af54-4511-a2ca-910fa15905d1&utm_source=V1g3MDY4NTY=&utm_medium=cps&utm_campaign=201905","name":"华为云秒杀","status":9,"txt":"华为云38元秒杀","type":1,"updateTime":1735747411000,"userId":3},{"createTime":1736173885000,"id":2,"img":"txy_480_300.png","link":"https://cloud.tencent.com/act/cps/redirect?redirect=1077&cps_key=edb15096bfff75effaaa8c8bb66138bd&from=console","name":"腾讯云秒杀","status":9,"txt":"腾讯云限量秒杀","type":1,"updateTime":1736173885000,"userId":3},{"createTime":1736177492000,"id":3,"img":"aly_251_140.png","link":"https://www.aliyun.com/minisite/goods?userCode=pwp8kmv3","memo":"","name":"阿里云","status":9,"txt":"阿里云2折起","type":1,"updateTime":1736177492000,"userId":3},{"createTime":1735660800000,"id":4,"img":"vultr_560_300.png","link":"https://www.vultr.com/?ref=9603742-8H","name":"Vultr","status":9,"txt":"Vultr送$100","type":1,"updateTime":1735660800000,"userId":3},{"createTime":1735660800000,"id":5,"img":"jdy_663_320.jpg","link":"https://3.cn/2ay1-e5t","name":"京东云","status":9,"txt":"京东云特惠专区","type":1,"updateTime":1735660800000,"userId":3},{"createTime":1735660800000,"id":6,"img":"new_ads.png","link":"https://www.iodraw.com/ads","name":"发布广告","status":9,"txt":"发布广告","type":1,"updateTime":1735660800000,"userId":3},{"createTime":1735660800000,"id":7,"img":"yun_910_50.png","link":"https://activity.huaweicloud.com/discount_area_v5/index.html?fromacct=261f35b6-af54-4511-a2ca-910fa15905d1&utm_source=aXhpYW95YW5nOA===&utm_medium=cps&utm_campaign=201905","name":"底部","status":9,"txt":"高性能云服务器2折起","type":2,"updateTime":1735660800000,"userId":3}]

<>Logistic Regression解决二分类问题

<>一、实验目的

理解逻辑回归模型，掌握逻辑回归模型的参数估计算法。

<>二、实验要求及实验环境

要求：

实现两种损失函数的参数估计（1，无惩罚项；2.加入对参数的惩罚），可以采用梯度下降、共轭梯度或者牛顿法等。

实验环境：

windows10、python3.7.4、pycharm2020.2

<>三、数学原理

<>3.1 实验目的及假设

实验目的：

从 T r a i n i n g S e t ： < X 1 , Y 1 > , < X 2 , Y 2 > . . . < X l , Y l >
Training Set：<X^1,Y^1>,<X^2,Y^2>...<X^l,Y^l>TrainingSet：<X1,Y1>,<X2,Y2>...<Xl,Yl
>中学习到一个分类器
f : X → Y f:X\to Y f:X→Y
以便于预测一个新的样本 X n e w X^{new} Xnew所属的类别 l a b e l label label

实验假设：

*
X X X的每一维属性 X i X_i Xi都是实数，故 X X X可视为形如 < X 1 , X 2 . . . X n >
<X_1,X_2...X_n><X1,X2...Xn>的 n n n维 v e c t o r vector vector

*
Y Y Y是 b o o l e a n boolean boolean值，取值为1或0

*
X i X_i Xi关于 Y Y Y条件独立

*
P ( X i ∣ Y = y k ) ∼ N ( μ i k , σ i ) P(X_i| Y=y_k)\sim
N(\mu_{ik},\sigma_{i})P(Xi∣Y=yk)∼N(μik,σi)

*
P ( Y ) ∼ B ( π ) P(Y)\sim B(\pi) P(Y)∼B(π)

<>3.2 转化 P ( Y ∣ X ) P(Y|X) P(Y∣X)

<>3.2.1 利用实验假设

按照前面的实验假设，结合概率论的知识，我们可以得到：
P ( Y = 1 ∣ X ) = P ( Y = 1 ) P ( X ∣ Y = 1 ) P ( Y = 1 ) P ( X ∣ Y = 1 ) + P
( Y = 0 ) P ( X ∣ Y = 0 ) = 1 1 + P ( Y = 0 ) P ( X ∣ Y = 0 ) P ( Y = 1 ) P ( X
∣ Y = 1 ) = 1 1 + e x p ( l n P ( Y = 0 ) P ( X ∣ Y = 0 ) P ( Y = 1 ) P ( X ∣ Y
= 1 ) ) = 1 1 + e x p ( l n 1 − π π + ∑ i l n P ( X i ∣ Y = 0 ) P ( X i ∣ Y = 1
) ) \begin{aligned}
P(Y=1|X)&=\frac{P(Y=1)P(X|Y=1)}{P(Y=1)P(X|Y=1)+P(Y=0)P(X|Y=0)}\\
&=\frac{1}{1+\frac{P(Y=0)P(X|Y=0)}{P(Y=1)P(X|Y=1)}}\\
&=\frac{1}{1+exp(ln\frac{P(Y=0)P(X|Y=0)}{P(Y=1)P(X|Y=1)})}\\
&=\frac{1}{1+exp(ln\frac{1-\pi}{\pi}+\sum_iln\frac{P(X_i|Y=0)}{P(X_i|Y=1)})}
\end{aligned}P(Y=1∣X)=P(Y=1)P(X∣Y=1)+P(Y=0)P(X∣Y=0)P(Y=1)P(X∣Y=1)=1+P(Y=1)P(X∣
Y=1)P(Y=0)P(X∣Y=0)1=1+exp(lnP(Y=1)P(X∣Y=1)P(Y=0)P(X∣Y=0))1=1+exp(lnπ1−π+∑i
lnP(Xi∣Y=1)P(Xi∣Y=0))1
由于 P ( X i ∣ Y = y k ) = 1 σ i 2 π e x p ( − ( X i − μ i k ) 2 2 σ i 2 )
P(X_i|Y=y_k)=\frac{1}{\sigma_{i}\sqrt{2\pi}}exp(\frac{-(X_i-\mu_{ik})^2}{2\sigma_{i}^2})
P(Xi∣Y=yk)=σi2π 1exp(2σi2−(Xi−μik)2)

代回原来的式子，可得
P ( Y = 1 ∣ X ) = 1 1 + e x p ( w 0 + ∑ i = 1 n w i X i ) w 0 = ∑ i μ i 1 2 −
μ i 0 2 2 σ i 2 + l n 1 − π π ; w i = μ i 0 − μ i 1 σ i 2
P(Y=1|X)=\frac{1}{1+exp(w_0+\sum_{i=1}^nw_iX_i)} \\
w_0=\sum_i\frac{\mu_{i1}^2-\mu_{i0}^2}{2\sigma_i^2}+ln\frac{1-\pi}{\pi};
w_i=\frac{\mu_{i0}-\mu_{i1}}{\sigma_i^2}P(Y=1∣X)=1+exp(w0+∑i=1nwiXi)1w0=i∑
2σi2μi12−μi02+lnπ1−π;wi=σi2μi0−μi1

因此
P ( Y = 0 ∣ X ) = e x p ( w 0 + ∑ i = 1 n w i X i ) 1 + e x p ( w 0 + ∑ i = 1
n w i X i ) l n P ( Y = 0 ∣ X ) P ( Y = 1 ∣ X ) = l n ( e x p ( w 0 + ∑ i = 1 n
w i X i ) ) = w 0 + ∑ i = 1 n w i X i \begin{aligned}
P(Y=0|X)&=\frac{exp(w_0+\sum_{i=1}^nw_iX_i)}{1+exp(w_0+\sum_{i=1}^nw_iX_i)}\\
ln
\frac{P(Y=0|X)}{P(Y=1|X)}&=ln(exp(w_0+\sum_{i=1}^nw_iX_i))=w_0+\sum_{i=1}^nw_iX_i
\end{aligned}P(Y=0∣X)lnP(Y=1∣X)P(Y=0∣X)=1+exp(w0+∑i=1nwiXi)exp(w0+∑i=1nw
iXi)=ln(exp(w0+i=1∑nwiXi))=w0+i=1∑nwiXi

<>3.2.2 引入odds

这里使用了一个分类的思想：利用 o d d s odds odds

一个事件的几率 o d d s odds odds是指事件发生的概率与事件不发生的概率的比值，如果事件发生的概率是 p p p，那么该事件的几率 o d d
s = p 1 − p odds=\frac{p}{1-p}odds=1−pp，该事件的对数概率（logit函数）就是

l o g i t ( p ) = l n p 1 − p logit(p)=ln \frac{p}{1-p} logit(p)=ln1−pp

依据 l o g i t ( p ) logit(p) logit(p)>0还是<0，来判定事件发生还是不发生，这便是 o d d s odds odds
概念的作用

将其应用到我们的 L o g i s t i c R e g r e s s i o n Logistic Regression LogisticRegres
sion问题中来便是
l o g i t ( Y = 0 ∣ X ) = w 0 + ∑ i = 1 n w i X i
logit(Y=0|X)=w_0+\sum_{i=1}^nw_iX_ilogit(Y=0∣X)=w0+i=1∑nwiXi
若 l o g i t ( Y = 0 ∣ X ) > 0 logit(Y=0|X)>0 logit(Y=0∣X)>0则将 X X X分到 Y = 0 Y=0
Y=0类，若 l o g i t ( Y = 0 ∣ X ) < 0 logit(Y=0|X)<0 logit(Y=0∣X)<0则将 X X X分到 Y =
1 Y=1Y=1类。

故我们的类别分界线就是
w 0 + ∑ i = 1 n w i X i = 0 w_0+\sum_{i=1}^nw_iX_i=0 w0+i=1∑nwiXi=0
将其向量化
w T X = 0 w = [ w 0 , w 1 . . . w n ] , X = [ 1 , X 1 , X 2 . . . X n ]
w^TX=0\\ w=[w_0,w_1...w_n],X=[1,X_1,X_2...X_n]wTX=0w=[w0,w1...wn],X=[1,X1,X2
...Xn]
注意这里的 w w w和 X X X都是 n + 1 n+1 n+1维向量，拓展了一个维度。

现在，还可以量化求出 X X X属于 Y = 1 Y=1 Y=1类和 Y = 0 Y=0 Y=0类的概率
P ( Y = 1 ∣ X ) = 1 1 + e x p ( w T X ) = s i g m o i d ( − w T X )
P(Y=1|X)=\frac{1}{1+exp(w^TX)}=sigmoid(-w^TX)P(Y=1∣X)=1+exp(wTX)1=sigmoid(−wTX)

P ( Y = 0 ∣ X ) = e x p ( w T X ) 1 + e x p ( w T X ) = 1 1 + e x p ( − w T X
) = s i g m o i d ( w T X )
P(Y=0|X)=\frac{exp(w^TX)}{1+exp(w^TX)}=\frac{1}{1+exp(-w^TX)}=sigmoid(w^TX)P(Y=0
∣X)=1+exp(wTX)exp(wTX)=1+exp(−wTX)1=sigmoid(wTX)

<>3.2.3 引入sigmoid函数

注意，这里我们引入了一个 s i g m o i d sigmoid sigmoid函数，图像如下：

所谓sigmoid函数，是一个在生物学中常见的S型函数，也称为S型生长曲线；也常常运用于信息科学当中，由于其单增以及反函数单增等性质，Sigmoid函数常被用作
神经网络的激活函数，将变量映射到0,1之间。

它是一个从实数域到(0,1)区间的映射，可以用来做二分类。在特征相差比较复杂或是相差不是特别大时效果比较好。Sigmoid作为激活函数有以下优点：

平滑、易于求导。

我们在这里利用 s i g m o i d ( w T X ) sigmoid(w^TX) sigmoid(wTX)来表示 P ( Y = 0 ∣ X )
P(Y=0|X)P(Y=0∣X)，既满足 w T X w^TX wTX是在实数域上，又满足 s i g m o i d ( w T X )
sigmoid(w^TX)sigmoid(wTX)是在 ( 0 , 1 ) (0,1) (0,1)区间上，且该函数光滑可导，十分契合我们的需求。

<>3.2.4 总结

我们得到的 X X X属于2种类别的分界线是
w T X = 0 (1) w^TX=0 \tag{1} wTX=0(1)
当 w T X > 0 w^TX>0 wTX>0时认为 X X X属于 Y = 0 Y=0 Y=0类；若 w T X < 0 w^TX<0 wTX<0则认为
X XX属于 Y = 1 Y=1 Y=1类。

而把 X X X归类为2种类别的概率分别是
P ( Y = 1 ∣ X ) = s i g m o i d ( − w T X ) (2) P(Y=1|X)=sigmoid(-w^TX)
\tag{2}P(Y=1∣X)=sigmoid(−wTX)(2)

P ( Y = 0 ∣ X ) = s i g m o i d ( w T X ) (3) P(Y=0|X)=sigmoid(w^TX) \tag{3} P
(Y=0∣X)=sigmoid(wTX)(3)

<>3.3 找到loss函数

前面我们已经得到了分类的界限 w T X = 0 w^TX=0 wTX=0，那么我们该如何确定这里的参数 w w w呢？

有两种方法：最大似然估计MLE和贝叶斯估计MAP，两者在 l o s s loss loss
函数里面就分别代表了无正则项的loss函数和有正则项的loss函数。

<>3.3.1 用MCLE求解 w w w

MLE的核心思想就是：将参数 w w w看作唯一真值，我们的任务就是找到这个 w w w，使得在这组参数下，我们的数据的似然度（概率）最大。

也就是说我们需要求 P ( < X , Y > ∣ w ) P(<X,Y>|w) P(<X,Y>∣w)，但这是很困难的事情，于是我们可以将MLE转换为MCLE
，只需要计算 P ( Y ∣ X ， w ) P(Y|X，w) P(Y∣X，w)

于是我们的似然函数就是
L ( w ) = l n ∏ l P ( Y l ∣ X l , w ) = ∑ l ( Y l w T X l − l n ( 1 + e x p (
w T X l ) ) ) \begin{aligned} L(w)&=ln\prod_l P(Y^l|X^l,w)\\
&=\sum_l(Y^lw^TX^l-ln(1+exp(w^TX^l))) \end{aligned}L(w)=lnl∏P(Yl∣Xl,w)=l∑(Ylw
TXl−ln(1+exp(wTXl)))

我们的损失函数 l o s s ( w ) loss(w) loss(w)一般取 − L ( w ) -L(w) −L(w)，即
l o s s ( w ) = ∑ l ( − Y l w T X l + l n ( 1 + e x p ( w T X l ) ) ) (4)
loss(w)=\sum_l(-Y^lw^TX^l+ln(1+exp(w^TX^l))) \tag{4}loss(w)=l∑(−YlwTXl+ln(1+exp
(wTXl)))(4)
注意：这里的 X l 和 Y l X^l和Y^l Xl和Yl均表示第 l l l个样本

<>3.3.2 用MAP求解 w w w

MAP的核心思想是： w w w是一个随机变量，符合一定的概率分布。

所以我们的任务就是给 w w w添加一个先验 P ( w ) P(w) P(w)，然后使得 P ( w ) P ( Y ∣ X , w )
P(w)P(Y|X,w)P(w)P(Y∣X,w)最大。

我们假设 w i ∼ N ( 0 , σ ) w_i\sim N(0,\sigma) wi∼N(0,σ)，则似然函数为
L ( w ) = ∑ l ( Y l w T X l − l n ( 1 + e x p ( w T X l ) ) ) − w T w 2 σ 2 +
l n ( 1 2 π σ )
L(w)=\sum_l(Y^lw^TX^l-ln(1+exp(w^TX^l)))-\frac{w^Tw}{2\sigma^2}+ln(\frac{1}{\sqrt{2\pi}\sigma})
L(w)=l∑(YlwTXl−ln(1+exp(wTXl)))−2σ2wTw+ln(2π σ1)
简化为
L ( w ) = ∑ l ( Y l w T X l − l n ( 1 + e x p ( w T X l ) ) ) − λ 2 w T w
L(w)=\sum_l(Y^lw^TX^l-ln(1+exp(w^TX^l)))-\frac{\lambda}{2}w^TwL(w)=l∑(YlwTXl−ln
(1+exp(wTXl)))−2λwTw
则MAP情况下的 l o s s loss loss函数为
l o s s ( w ) = ∑ l ( − Y l w T X l + l n ( 1 + e x p ( w T X l ) ) ) + λ 2 w
T w (5) loss(w)=\sum_l(-Y^lw^TX^l+ln(1+exp(w^TX^l)))+\frac{\lambda}{2}w^Tw
\tag{5}loss(w)=l∑(−YlwTXl+ln(1+exp(wTXl)))+2λwTw(5)
相当于在MLE的基础上加了正则项

<>3.4 求出loss函数的优化解——牛顿法

前面我们已经找出了MLE和MAP情况下的 l o s s loss loss函数，我们所需的 w w w为
w = argmin ⁡ w l o s s ( w ) (6) w=\operatorname{argmin}_{w}loss(w) \tag{6} w=
argminwloss(w)(6)
我们使用牛顿法来求解

牛顿法的思路是使用二阶泰勒展开去估计曲线，然后用二阶泰勒展开的函数的极值点去估计曲线的极值点，重复迭代直到找到极值点

对于无约束最优化问题
m i n x f ( x ) min_{x}f(x) minxf(x)
其中 x ∗ x^* x∗为函数极小值点

设 f ( x ) f(x) f(x)有二阶连续偏导数，若第 k k k次迭代值为 x k x^k xk，则可以将 f ( x ) f(x) f(x)在 x
k x^kxk附近进行二阶泰勒展开
f ( x ) = f ( x k ) + g k T ( x − x k ) + 1 2 ( x − x k ) T H ( x k ) ( x − x
k ) (7) f(x)=f(x^k)+g_k^T(x-x^k)+\frac{1}{2}(x-x^k)^TH(x^k)(x-x^k) \tag{7}f(x)=f
(xk)+gkT(x−xk)+21(x−xk)TH(xk)(x−xk)(7)
其中， g k = ▽ f ( x ) g_k=\bigtriangledown f(x) gk=▽f(x)是梯度向量， H ( x ) H(x) H(x
)是海森矩阵
H ( x ) = [ ∂ 2 f ∂ x i ∂ x j ] n × n H(x)=[\frac{\partial^2 f}{\partial
x_i\partial x_j}]_{n\times n}H(x)=[∂xi∂xj∂2f]n×n
f ( x ) f(x) f(x)在极值点处 g k = 0 g_k=0 gk=0；特别的，当 H ( x ) H(x) H(x)为正定矩阵时， f (
x ) f(x)f(x)的极值是极小值。

为了得到 g k = 0 g_k=0 gk=0的点，对7式求导
d f ( x ) d x = g k + H k ( x − x k ) \frac{df(x)}{dx}=g_k+H_k(x-x^k) dxdf(x)
=gk+Hk(x−xk)
则极值点处 d f ( x ) d x = 0 \frac{df(x)}{dx}=0 dxdf(x)=0
x k + 1 = x k − H k − 1 g k x^{k+1}=x^k-H_k^{-1}g_k xk+1=xk−Hk−1gk
这便是我们的迭代公式。

将其应用到我们的 l o s s loss loss函数就是
w k + 1 = w k − ( ∂ 2 l o s s ( w ) ∂ w ∂ w T ) − 1 ∂ l o s s ( w ) ∂ w (8)
w^{k+1}=w^k-(\frac{\partial^2 loss(w)}{\partial w\partial
w^T})^{-1}\frac{\partial loss(w)}{\partial w} \tag{8}wk+1=wk−(∂w∂wT∂2loss(w))−1
∂w∂loss(w)(8)
其中
∂ l o s s ( w ) ∂ w = − ∑ l x l ( Y l − s i g m o i d ( w T X ) ) + λ w (9)
\frac{\partial loss(w)}{\partial w}=-\sum_lx^l(Y^l-sigmoid(w^TX))+\lambda w
\tag{9}∂w∂loss(w)=−l∑xl(Yl−sigmoid(wTX))+λw(9)

∂ 2 l o s s ( w ) ∂ w ∂ w T = ∑ l ( X X T s i g m o i d ( w T X ) s i g m o i
d ( − w T X ) ) + λ I (10) \frac{\partial^2 loss(w)}{\partial w\partial
w^T}=\sum_l(XX^Tsigmoid(w^TX)sigmoid(-w^TX))+\lambda I \tag{10}∂w∂wT∂2loss(w)=l
∑(XXTsigmoid(wTX)sigmoid(−wTX))+λI(10)

注意：上面的式子对于MLE的 l o s s loss loss函数而言 λ \lambda λ=0， I I I表示单位阵

<>四、实验具体流程

<>4.1 生成数据

设置正例( Y = 1 Y=1 Y=1)的比例为40%，训练集、验证集、测试集的比例为6：2：2

利用多维高斯分布函数来生成数据，为便于画图展示，主要使用二维数据。

<>4.1.1 满足朴素贝叶斯

若满足朴素贝叶斯，则认为 X X X的各维度数据关于 Y Y Y条件独立，则协方差矩阵为
C = [ c o v 11 c o v 12 c o v 21 c o v 22 ] C=\begin{bmatrix} cov_{11}
&cov_{12} \\ cov_{21} &cov_{22} \end{bmatrix}C=[cov11cov21cov12cov22]
其中 c o v 12 = c o v 21 = 0 cov_{12}=cov_{21}=0 cov12=cov21=0， c o v 11
cov_{11}cov11就是 X 1 X_1 X1的方差， c o v 22 cov_{22} cov22就是 X 2 X_2 X2的方差，故
C = [ σ 1 2 0 0 σ 2 2 ] C=\begin{bmatrix} \sigma_1^2 &0 \\ 0 &\sigma_2^2
\end{bmatrix}C=[σ1200σ22]
自己设定 σ 1 2 = 0.3 , σ 2 2 = 0.4 \sigma_1^2=0.3,\sigma_2^2=0.4 σ12=0.3,σ22=0.4

展示核心代码：
def Data(N, naive=True, posRate=0.4): posNumber = np.ceil(N * posRate).astype(
np.int32) sigma = [0.3, 0.4] # cov11与cov22 cov12 = 0.2 pos_mean = [1, 1.2] #
正例的两维度均值 neg_mean = [-1, -1.2] # 反例的两维度均值 x = np.zeros((N, 2)) # x数组 y = np.
zeros(N).astype(np.int32) # label数组 if naive: # 满足朴素贝叶斯假设 x[:posNumber, :] = np.
random.multivariate_normal(pos_mean, [[sigma[0], 0], [0, sigma[1]]], size=
posNumber) x[posNumber:, :] = np.random.multivariate_normal(neg_mean, [[sigma[0]
, 0], [0, sigma[1]]], size=N - posNumber) y[:posNumber] = 1 y[posNumber:] = 0
实验效果如下

<>4.1.2 不满足朴素贝叶斯

不满足朴素贝叶斯时，则 c o v 12 ≠ 0 cov_{12} \ne 0 cov12=0，自己设定 c o v 12 = 0.2
cov_{12}=0.2cov12=0.2

核心代码如下：
else: # 不满足朴素贝叶斯假设 x[:posNumber, :] = np.random.multivariate_normal(pos_mean, [
[sigma[0], cov12], [cov12, sigma[1]]], size=posNumber) x[posNumber:, :] = np.
random.multivariate_normal(neg_mean, [[sigma[0], cov12], [cov12, sigma[1]]],
size=N - posNumber) y[:posNumber] = 1 y[posNumber:] = 0
效果如下

可以明显发现：不满足朴素贝叶斯假设时，数据点呈现“长条”状，这表明 X X X的2个维度之间有线性相关关系，与我们的预期想契合。

<>4.2 有无正则项的对比

在无正则项的时候，依据lab1的结论，当训练集数据点数据很少时，会有过拟合现象。然后克服过拟合的方法有2种：

* 增加训练集的样本数量
* 增加正则项
下面我们按照这个思路来进行有无正则项的对比实验

先展示一下Newton法求优化解的核心代码，至于算法的数学原理前面已经给出，这里不再赘述
def __derivative(self, w): """ 求出导函数 :param w: 当前的w :return: 返回当前的导数 """ result
= np.zeros(self.__n) # 依次取出X和Y的所有行 for i in range(self.__m): result += (self.x[i
] * (self.y[i] - (1.0 - self.__sigmoid(w @ self.x[i])))) return -1 * result +
self.hyper * w def __second_derivative(self, w): """ 求出hessian matrix的逆矩阵
:param w: :return: """ ans = np.eye(self.__n) * self.hyper # 依次取出X和Y的所有行 for i
in range(self.__m): temp = self.__sigmoid(w @ self.x[i]) ans += self.x[i] * np.
transpose([self.x[i]]) * temp * (1 - temp) # 最后求逆矩阵 return np.linalg.pinv(ans)
def solve(self): w = self.w_0 while True: gradient = self.__derivative(w) #
满足精度要求即可退出迭代 if np.linalg.norm(gradient) < self.delta: break # 使用迭代公式进行下一次迭代 w =
w- self.__second_derivative(w) @ gradient return w
首先使用样本数量很少的训练集来训练，然后将训练得到的结果 w w w应用到一个较大的测试集上测试它的泛化性能

<>4.2.1 无正则

我们仅仅使用 N = 10 N=10 N=10的小训练集：

N e w t o n Newton Newton法迭代情况如下，可见 N e w t o n Newton Newton法收敛还是比较快的：

使用 N = 2000 N=2000 N=2000的测试集来测试它的泛化性能，正确率为89.75%：

接下来使用更大的训练集 N = 1000 N=1000 N=1000：

对应的收敛情况如下，可见在样本数较大时，迭代轮数并未受到太大影响。

但是大训练集可以有效克服过拟合，此处准确率为99.45%

<>4.2.2 有正则

使用一样的 N = 10 N=10 N=10的训练集，但是这次加上正则项，并先设定 λ = 0.1 \lambda=0.1 λ=0.1，正确率为98.65%：

正确率大幅提高，这也与再一次证明了加入正则项可以克服过拟合的结论

收敛情况如下，可见增加正则项也不会明显改变迭代轮数：

至于正则项的直观作用，可以参看下图

即：正则项会改变求得的 w w w，从而导致分界线的斜率和截距变化，具有更好的泛化性能。

至于正则项的超参数 λ \lambda λ，我通过给它设定一个范围，然后在验证集上进行测试，选择泛化性能最好的超参数
λ = e x p ( − 3 ) \lambda=exp(-3) λ=exp(−3)
并在后续实验中均使用此值

<>4.3 是否满足朴素贝叶斯的对比

在数学原理部分已经叙述过，不满足朴素贝叶斯假设时协方差矩阵就不是对角阵，下面皆使用 N = 1000 , λ = e x p ( − 3 )
N=1000,\lambda=exp(-3)N=1000,λ=exp(−3)进行实验

满足朴素贝叶斯时:

不满足朴素贝叶斯时，我们使用 c o v 12 = 0.2 cov_{12}=0.2 cov12=0.2进行测试：

分别进行10次实验，记录各自准确率：

12345平均
满足0.9960.9940.9950.9940.9920.994
不满足0.9720.9760.9740.9730.9680.973
可见，在其他条件相同时，”不满足朴素贝叶斯“的准确率略低于”满足朴素贝叶斯“

原因就在于：我们实验使用的是Logistic Regression，得到的分类器 w T X = 0 w^TX=0 wTX=0是个线性分类器，它只是给 X X
X的每个维度加个权重 w i w_i wi，并没有考虑到各个维度之间的相关性，即默认满足了朴素贝叶斯假设。

<>4.4 使用UCI数据集进行测试

<>4.4.1 选用Skin数据集

Skin数据集：通过从各种年龄组（年轻人，中年人和老年人），种族组（白人，黑人和亚洲人）的面部图像中随机抽取B，G，R值以及从FERET数据库和PAL数据库获得的性别来收集皮肤数据集。

学习样本总量为245057; 其中50859是皮肤样本，194198是非皮肤样本。

此数据集中 X X X有3个维度， Y Y Y有2种取值。正好适合我们进行二分类任务，同时由于 X X X有3个维度，因此可以将其在3D图种显示出来。

从UCI上获取的数据集首先要读取出 X X X和 Y Y Y
def ReadUCI(path): data_set = pd.read_csv(path) # linux 相对路径 x = data_set.drop(
'label', axis=1) y = data_set['label'] dataX, dataY = np.array(x, dtype=float),
np.array(y) N = len(dataY) posNumber = 0 for i in range(N): if dataY[i] == 1:
posNumber+= 1 # 调节读取的数据量 useRate = 0.5 posUseNumber = int(math.ceil(posNumber *
useRate)) negUseNumber = int(math.ceil((N-posNumber) * useRate)) x_Bool = np.
zeros(N).astype(np.int32) # x对应的bool数组，用于切片 x_Bool[:posUseNumber] = 1 x_Bool[
posNumber:(posNumber + negUseNumber)] = 1 dataX, dataY = dataX[x_Bool == 1],
dataY[x_Bool == 1] # 划分训练集和测试集 Train_x, Train_y, Test_x, Test_y = SplitData(
dataX, dataY) return Train_x, Train_y, Test_x, Test_y
无正则项时：

因为从正面看分界不是很清晰，所以我们找到分界的视角再看一下

可见在不加正则项的时候，准确率也还不错，达到93.48%

加正则项时：

同样展示分界面：

可见：加入正则项会使得准确率略微上升，达到了95%

<>选用iris数据集

iris数据集中每个样本中 X X X有4个维度， Y Y Y有3种取值。

于是我先将数据集进行处理，只留下 Y Y Y有2种取值的那部分，以便于我们直接进行二分类。处理之后，数据集中共有100个样本点。

在此数据集上进行测试：

可见：准确率为100%

<>五、结论

*
对于在训练集样本数很少时，加入正则项可以有效解决过拟合问题。

*
类条件分布在满足朴素贝叶斯假设时的Logistic Regression分类表现，要比不满足假设时略好

*
Logistics Regression可以很好地解决简单的线性分类问题

*
使用牛顿法求优化解时，收敛速度较快，且样本点数目对它的收敛速度影响不大。

<>六、参考文献

* 周志华著. 机器学习, 北京: 清华大学出版社, 2016.1
* 李航著. 统计学习方法, 北京: 清华大学出版社, 2019.5

技术

Java1212 篇
Python927 篇
开发语言608 篇
c语言463 篇
算法461 篇
MySQL438 篇
数据库394 篇
前端387 篇
更多...