神经网络架构：CNN、RNN 及其变体

神经网络是深度学习的核心，不同的神经网络架构适用于不同的任务。下面我们将详细讲解 卷积神经网络（CNN）、循环神经网络（RNN） 及其变体 LSTM 和 GRU 的原理和应用。

CNN 是一种专门用于处理 网格数据（如图像、视频）的神经网络架构。

卷积层：通过卷积核（filter）提取局部特征。
- 卷积操作： $输出 = 输入 * 卷积核$
- 例如，从图像中提取边缘、纹理等特征。
池化层：降低特征图的空间维度，减少计算量并增强鲁棒性。
- 常用池化方法：最大池化（Max Pooling）、平均池化（Average Pooling）。
全连接层：将提取的特征映射到输出类别。

RNN 是一种用于处理 序列数据（如文本、时间序列）的神经网络架构。

循环结构：通过隐藏状态 $h_{t}$ 传递历史信息。
- 更新公式： $h_{t} = σ (W_{h} h_{t - 1} + W_{x} x_{t} + b)$
- 其中， $x_{t}$ 是输入， $W_{h}$ 和 $W_{x}$ 是权重矩阵， $b$ 是偏置。
序列建模：能够处理变长序列数据。

LSTM 是 RNN 的变体，解决了 RNN 的梯度消失问题和长序列依赖问题。

记忆单元：通过门控机制（输入门、遗忘门、输出门）控制信息的流动。
- 输入门：决定哪些新信息被存储。
- 遗忘门：决定哪些旧信息被丢弃。
- 输出门：决定哪些信息被输出。
状态更新：
- 细胞状态 $C_{t}$ ：长期记忆。
- 隐藏状态 $h_{t}$ ：短期记忆。

GRU 是 LSTM 的简化版本，计算效率更高。

通过掌握这些神经网络架构，你将能够更好地设计和优化深度学习模型，解决复杂的实际问题。加油！ 🚀