201612 阅读笔记

技术方面

虽然之前了解过一些RNN模型，但对其中的很多细节（比如BPTT算法、LSTM的状态计算公式）的理解甚浅。最近又细读了一些资料，受益匪浅。下面是几篇非常好的RNN入门资料，希望后面能在RNN上做些实践做出一些有意思的工作。

RECURRENT NEURAL NETWORKS TUTORIAL, PART 1 – INTRODUCTION TO RNNS
- 介绍什么是RNN (recurrent neural networks)
- 适合处理含有序列结构的问题，像自然语言理解里的很多问题——语言模型，机器翻译，生成图片的描述等。前面这句话反过来说也许更合适，含有序列结构的问题用RNN来建模更为直接，因为序列的上下文信息对建模是有用的，RNN的结构特点使得其能够包含上下文信息。
- 给出 RNN 的结构示意图。对于最朴素的RNN模型，主要要学习的参数有 U, W, V 三个矩阵，各层之间共享 U, W, V 参数。好处：相比通常的深度神经网络而言，要学习的参数更少，模型过拟合的可能性会适当降低。
- 因为 U, W, V 三类参数是各层共享的，所以在优化算法这块，跟传统神经网络的BP算法有点不同，对RNN而言，优化算法称为BPTT算法。
- RNN的变种有：Bidirectional RNNs, Deep (Bidirectional) RNNs, LSTM networks
RECURRENT NEURAL NETWORKS TUTORIAL, PART 2 – IMPLEMENTING A RNN WITH PYTHON, NUMPY AND THEANO
- 语言模型的问题描述
- 基于python语言的文本预处理（通常文本处理都需要这些步骤）和训练RNN模型
- 细节处理：初始化模型参数（在某个区间内按照均匀分布随机采样），检测梯度（该方法在很多文献中都提过，用差分方法逼近微分），使用Theano优化性能
RECURRENT NEURAL NETWORKS TUTORIAL, PART 3 – BACKPROPAGATION THROUGH TIME AND VANISHING GRADIENTS
- 介绍BPTT算法，给出迭代计算公式
- 介绍梯度消失问题（Vanishing gradient problem）：计算梯度的链式法则使得远距离依赖的特征的梯度很小，造成远距离依赖关系难以学到
- 对梯度消失问题的解决办法
  - 对 W 矩阵用更好的初始化方法
  - 使用 ReLU 替换 tanh函数或者 sigmoid函数
  - 使用 Long Short-Term Memory (LSTM) 或者 Gated Recurrent Unit (GRU) 结构
RECURRENT NEURAL NETWORKS TUTORIAL, PART 4 – IMPLEMENTING A GRU/LSTM RNN WITH PYTHON AND THEANO
- 介绍 LSTM：含有 i, f, o 三种gate，分别表示input, forget and output gate。含有隐藏状态 s 和记忆 c。
- 介绍 GRU：含有 r, z 两种gate，分别表示reset gate 和 update gate。
- LSTM和GRU的效果对比，暂时还难分伯仲，更多的时候学者是在调试网络层数、节点数等网络结构。GRU的模型参数少，如果样本量充足的话，可以用LSTM，毕竟LSTM的模型表达能力更强。
- SGD的变种（这点在之前的”201603 阅读笔记”博客中也提到过）
Understanding LSTM Networks
- 相比 “RECURRENT NEURAL NETWORKS TUTORIAL”系列的4篇文章而言，这篇文章用更形象更具体的语言描述了LSTM的网络结构
ATTENTION AND MEMORY IN DEEP LEARNING AND NLP
- 介绍attention机制。引入attention机制到机器翻译问题中，能同时把词语对齐问题和翻译问题一同被模型处理，也就是论文《Neural Machine Translation by Jointly Learning to Align and Translate》标题上的jointly learning。
- 介绍memory机制：可以理解attention机制是一种特殊的memory机制。
ATTENTION MECHANISM
- 这篇文章用形象的图描述了attention机制在机器翻译、图片描述等问题的应用。
Attention and Augmented Recurrent Neural Networks

原创文章，转载请注明：转载自vividfree的博客

本文链接地址：201612 阅读笔记