如何在 Python 中从头开始构建自己的神经网络

动机:作为我更好地理解深度学习的个人旅程的一部分,我决定在没有像 TensorFlow 这样的深度学习库的情况下从头开始构建神经网络。我相信了解神经网络的内部工作原理对于任何有抱负的数据科学家来说都很重要。

这篇文章发表后不久,我被邀请成为《使用 Python 的神经网络项目》一书的唯一作者。今天,我很高兴与大家分享我的书已经出版了!

本书是本文的续篇,涵盖了人脸识别、情感分析、噪声消除等领域的神经网络项目的端到端实现。每一章都有独特的神经网络架构,包括卷积神经网络、长短期记忆网络和连体神经网络。如果您希望通过深度学习项目创建强大的机器学习组合,请考虑购买这本书!

您可以从 Amazon 获得这本书:Neural Network Projects with Python

什么是神经网络?

大多数神经网络的介绍性文本在描述它们时都会提出大脑类比。在不深入研究大脑类比的情况下,我发现将神经网络简单地描述为将给定输入映射到所需输出的数学函数更容易。

神经网络由以下组件组成

  • 输入x _
  • 任意数量的隐藏层
  • 输出_ _
  • 每层W 和 b之间的一组权重偏差
  • 每个隐藏层的激活函数σ的选择。在本教程中,我们将使用 Sigmoid 激活函数。

下图显示了 2 层神经网络的架构(请注意,在计算神经网络中的层数时,通常会排除输入层

在 Python 中创建神经网络类很容易。

class NeuralNetwork:
    def __init__(self, x, y):
        self.input      = x
        self.weights1   = np.random.rand(self.input.shape[1],4) 
        self.weights2   = np.random.rand(4,1)                 
        self.y          = y
        self.output     = np.zeros(y.shape)

训练神经网络

一个简单的 2 层神经网络的输出ŷ是:

您可能会注意到,在上面的等式中,权重W和偏差b是唯一影响输出ŷ 的变量。

自然,权重和偏差的正确值决定了预测的强度。从输入数据中微调权重和偏差的过程称为训练神经网络。

训练过程的每次迭代都包括以下步骤:

  • 计算预测输出ŷ,称为前馈
  • 更新权重和偏差,称为反向传播

下面的顺序图说明了该过程。

前馈

正如我们在上面的序列图中看到的,前馈只是简单的微积分,对于基本的 2 层神经网络,神经网络的输出是:

让我们在我们的 python 代码中添加一个前馈函数来实现这一点。请注意,为简单起见,我们假设偏差为 0。

class NeuralNetwork:
    def __init__(self, x, y):
        self.input      = x
        self.weights1   = np.random.rand(self.input.shape[1],4) 
        self.weights2   = np.random.rand(4,1)                 
        self.y          = y
        self.output     = np.zeros(self.y.shape)

    def feedforward(self):
        self.layer1 = sigmoid(np.dot(self.input, self.weights1))
        self.output = sigmoid(np.dot(self.layer1, self.weights2))

然而,我们仍然需要一种方法来评估我们预测的“好坏”(即我们的预测离我们有多远)?损失函数使我们能够做到这一点。

损失函数

有许多可用的损失函数,我们问题的性质应该决定我们对损失函数的选择。在本教程中,我们将使用一个简单的平方和误差作为我们的损失函数。

也就是说,平方和误差只是每个预测值与实际值之差的总和。将差值平方,以便我们测量差值的绝对值。

我们的训练目标是找到最小化损失函数的最佳权重和偏差集。

反向传播

现在我们已经测量了我们的预测误差(损失),我们需要找到一种方法将误差传播回来,并更新我们的权重和偏差。

为了知道调整权重和偏差的适当数量,我们需要知道损失函数对权重和偏差的导数

回想一下微积分,函数的导数就是函数的斜率。

如果我们有导数,我们可以简单地通过增加/减少来更新权重和偏差(参见上图)。这称为梯度下降

但是,我们不能直接计算损失函数对权重和偏差的导数,因为损失函数的方程不包含权重和偏差。因此,我们需要链式法则来帮助我们计算它。

呸!这很丑陋,但它允许我们得到我们需要的东西——损失函数相对于权重的导数(斜率),以便我们可以相应地调整权重。

现在我们有了它,让我们将反向传播函数添加到我们的 python 代码中。

class NeuralNetwork:
    def __init__(self, x, y):
        self.input      = x
        self.weights1   = np.random.rand(self.input.shape[1],4) 
        self.weights2   = np.random.rand(4,1)                 
        self.y          = y
        self.output     = np.zeros(self.y.shape)

    def feedforward(self):
        self.layer1 = sigmoid(np.dot(self.input, self.weights1))
        self.output = sigmoid(np.dot(self.layer1, self.weights2))

    def backprop(self):
        # application of the chain rule to find derivative of the loss function with respect to weights2 and weights1
        d_weights2 = np.dot(self.layer1.T, (2*(self.y - self.output) * sigmoid_derivative(self.output)))
        d_weights1 = np.dot(self.input.T,  (np.dot(2*(self.y - self.output) * sigmoid_derivative(self.output), self.weights2.T) * sigmoid_derivative(self.layer1)))

        # update the weights with the derivative (slope) of the loss function
        self.weights1 += d_weights1
        self.weights2 += d_weights2

为了更深入地了解微积分的应用和反向传播中的链式法则,我强烈推荐 3Blue1Brown 的本教程。

https://youtu.be/tIeHLnjs5U8

把它们放在一起

现在我们已经有了用于进行前馈和反向传播的完整 Python 代码,让我们将我们的神经网络应用到一个示例中,看看它的效果如何。

我们的神经网络应该学习一组理想的权重来表示这个函数。请注意,仅通过检查来计算权重对我们来说并不是一件容易的事。

让我们训练神经网络 1500 次迭代,看看会发生什么。查看下面的每次迭代损失图,我们可以清楚地看到损失单调递减至最小值。这与我们之前讨论过的梯度下降算法是一致的。

让我们看看神经网络在 1500 次迭代后的最终预测(输出)。

我们做到了!我们的前馈和反向传播算法成功地训练了神经网络,并且预测收敛于真实值。

请注意,预测值和实际值之间存在细微差别。这是可取的,因为它可以防止过度拟合并允许神经网络更好地泛化到看不见的数据。

下一步是什么?

幸运的是,我们的旅程还没有结束。关于神经网络和深度学习还有很多东西要学。例如:

  • 除了 Sigmoid 函数,我们还可以使用哪些其他激活函数?
  • 在训练神经网络时使用学习率
  • 使用卷积进行图像分类任务

我很快就会写更多关于这些主题的文章,所以请在 Medium 上关注我并密切关注它们!

最后的想法

我当然从头开始编写自己的神经网络学到了很多东西。

尽管 TensorFlow 和 Keras 等深度学习库可以在不完全了解神经网络内部工作原理的情况下轻松构建深度网络,但我发现有抱负的数据科学家更深入地了解神经网络是有益的。

发表评论

邮箱地址不会被公开。 必填项已用*标注