机器学习进阶之深入思考逻辑回归

开发 开发工具
逻辑回归(Logistic Regression)是机器学习上面一个最简单、最基础的模型框架和基本范式,不夸张地说它是机器学习奠基石之一,后续的机器学习模型,很多都是立足于这个基础的模型框架上,提出各种形式拓展与改进。

[[394678]]

问题背景

假设有这样的一个需求:判断某一朵花是不是鸢尾花。我们知道不同品种的花,其长得是不一样,所以我们可以通过花的若干外观特征(花萼长度、花萼宽度、花瓣长度、花瓣宽度等)来表示这一朵花。基于这个思路,我们采集N朵花并对其标注,得到以下的数据集。图片

考虑最简单的一种情形,Y(是否为鸢尾花),与特征X线性相关,W定义为相关系数,即模型F可以用下面公式表述:

化简写成向量化形式:

图片也就是线性回归:

现在问题来了,是和否是两种状态,在计算机科学上我们常用1/0开关量来表述,但是从表示式的值域上看数学公式:

能取任意值,这是没办法直接成表述0/1开关量。那如何解决这个问题呢?通过一个转换函数(又称为激活函数),将线性回归转换逻辑回归。

建模思路

并不是任意函数都可以作激活函数使用的,激活函数具有以下几种良好的性质:

非线性,线性函数的复合线性函数仍是线性函数,故线性激活函数不能带来非线性的变换,使用这样激活函数不能增强模型的表达能力,如此一来就没办法拟合复杂的实现问题了,所以激活函数必须非线性的。

连续可微,如果函数不可微分,就没办法通过梯度下降法来迭代优化,以得到近似的最优解了。如果激活函数不可微,可能需要其他各复杂的数学工具来求解,一是未必会有解,二是计算成本太高,难以实现和落地。

单调性,线性函数本身是单调,这个本身是一定的物理意义的,所以经过激活函数转换后也保持这个性质,不能改变其单调性。满足

直接转换

通过一个分段函数,把f(x)直接映射成0或1,如公式所示:

但是,这个分段函数不连续不可微不单调,还带一个额外的参数k,所以这种分段函数并不适合作激活函数使用。

间接映射

不直接映射成0或1,而是将f(x)的值域压缩到(0,1)之间,如公式所示:

这就是sigmoid函数了,下图为sigmoid函数的图像。

显然是这个函数是具有上面提到的激活函数的三种优良性质。同时将输出压缩到(0,1)区间上,有一个很直观感受是,我们可以把这个输出值理解为一种概率,在这个问题上指的是鸢尾花的概率,当这个概率值大于0.5,说明鸢尾花概率大即1,反之则不是鸢尾花即0,这就能实现分类的判别了。

实现逻辑

那既然现在有了sigmoid激活函数,我们该如何利用它训练模型呢?模型之所以能训练是依赖于两个神器:损失函数和梯度下降,前者能量化我们模型预测与真实结果的误差、确定优化的目标函数,后者能知道如何去减少误差、具体地优化目标函数。

损失函数

sigmoid激活函数输出值可以看作是概率,具体地我们可以把这个概率,看成是预测结果为是的概率。

我们需要预测的分类结果要么为是要么为否,只有两种情况,显然样本X是服从伯努利(0-1)分布。假定样本X,当分类标签真值y为1时,我们就看y_pred也是sigmoid的输出值(模型预测为是的概率),0是1的互斥事件,当分类标签真值为0时,我们就看1-y_pred(模型预测为否的概率),所以条件概率P(Y|X)可以量化出模型预测的准确程度了。

合并化简,整合成统一形式

P(Y|X)就是模型预测结果,显然P(Y|X)的值越接近于1,说明模型预测结果越准。一个数据集有N个样本,每个样本之间独立的,所以在模型在整个数据上好坏,可以这样定义:

显然,要使得模型的效果最佳,则得找到一个最佳参数

使得

能取到最大值,这个就是最优化方法里面的极大使然估计(MLE)了,我们找到损失函数了。

接下来,我们得看看如何转换这个损失函数:加负号(最大值问题转化最小值问题,梯度下降能找最小值),取对数(不改单调性,把复杂的连乘变成简单的连加)

梯度下降

确定了目标函数之后,接下来就可以利用梯度下降,用迭代更新参数W,使其不断逼近目标函数的极值点。

梯度推导:

联立式②③可见

由此可见,t+1时刻模型预测误差总会比在t时刻更小,通过这样迭代,模型就能不断学习和调整,一直到偏导数为0的(局部)最优极值点,这时候参数便无法再继续调整了,模型也就停止再训练了。

结语

逻辑回归(Logistic Regression)是机器学习上面一个最简单、最基础的模型框架和基本范式,不夸张地说它是机器学习奠基石之一,后续的机器学习模型,很多都是立足于这个基础的模型框架上,提出各种形式拓展与改进。

深刻地理解逻辑回归模型,梳理逻辑回归模型背后建模思路、因果缘由、实现逻辑,能让我们对机器学习的方法论有一个更全面更清晰的认知。

 

责任编辑:武晓燕 来源: 51CTO专栏
相关推荐

2020-12-23 07:54:56

Python机器学习逻辑回归算法

2017-09-01 13:19:21

机器学习Logostic回归

2020-12-24 06:54:45

Python机器学习多类分类逻辑回归

2021-03-09 22:29:46

Vue 响应式API

2018-02-02 17:08:48

机器学习算法决策树

2014-08-22 10:06:46

机器学习

2017-06-14 17:18:43

机器学习数据研究回归

2023-03-30 11:38:56

机器学习逻辑规则数量

2017-05-17 08:24:08

TensorFlow机器学习线性回归

2022-04-06 11:55:12

模型机器学习训练

2021-09-10 07:31:54

AndroidAppStartup原理

2016-12-03 09:29:45

机器学习数据

2020-12-19 10:54:25

机器学习线性回归算法

2020-12-20 20:31:56

Python机器学习多元线性回归

2014-09-25 10:08:28

机器学习

2017-11-24 10:43:43

Madlib机器学习

2017-08-08 09:15:41

前端JavaScript页面渲染

2021-09-24 08:10:40

Java 语言 Java 基础

2021-10-15 09:19:17

AndroidSharedPrefe分析源码

2021-09-08 06:51:52

AndroidRetrofit原理
点赞
收藏

51CTO技术栈公众号