
神经网络为什么可以分类和回归--为何智能
神经网络为什么可以做到智能分类,回归预测?他是如何做到的呢?
让我们先来看一个回归预测问题,请看下面这张图:
解释一下上图中的要素:蓝色曲线为真实数据,红色为神经网络预测曲线。其中红色曲线由三段直线构成,【0-1】区间内斜率k=1;【1-2】区间内斜率k=-1;【2-∞】区间内斜率k=1。
实际上神经网络预测曲线y^可以由以下三个函数构成:
解释一下上图中的要素:其中y1=x,区间【0-∞】;y2=0,区间【0-1】,y2=-2x+2,区间【1-∞】;y3=0,区间【0-2】,y3=2x-4,区间【2-∞】。
y1+y2+y3=x;在区间【1-2】y1+y2+y3=-x+2;在区间【2-∞】y1+y2+y3=x-2。
通过上面的例子我们可以得到如下结论:非线性的拟合曲线或者是非线性的高维分类曲面他们都是由无数的非线性函数组成的,那么非线性函数是怎么得到的呢?这就不得不提我们之前说过的RELU函数了。
再进行一次线性变换就可以得到y2,y3: 将RELU函数向右平移一位,并对x缩放一倍后翻转就可以得到y2;将RELU函数向右平移两位,并对x缩放一倍后就可以得到y3。RELU的非线性特质使其拥有了转折点,而各种RELU函数的组合可以达到任意位置,也就可以拟合任何弧度。
上图中我们可以看到输入x,通过线性组合wx+b进入隐藏层,隐藏层RELU函数对线性组合进行非线性变换,使其组合起来拥有拟合任意点的能力,然后再对RELU函数进行线性变换w2(RELU(wx+b))+b2,再通过softmax输出,整个过程当中,w和w2就是特征向量,就是我们刚刚所属的y1 y2 y3函数的斜率和位移,我们该如何对各种线性函数进行拉伸评议翻转并非线性组合后能正好拟合我们想要的曲线曲面,这里w和b就很重要,如何求解w和b呢,我们之前也已经讲解过了,通过求解损失函数loss,并且通过梯度下降法,链式传导一步一步求出最理想状态的w和b,可以使得损失函数最小,最拟合完美曲线。
怎么样?神经网络的底层逻辑是不是也没有那么难呢?
本文转载自人工智能训练营,作者:小A学习
