这篇论文按照arXiv发布时间来看应该是同一时期的工作，采取了与NAS非常不同的架构。在强化学习算法上，前者用的是policy-bases算法REINFORCE，而后者是传统的Q-learning方法，注意不是DQN，根据论文来看作者用的Q-Learning是没有包含FA的，也就是直接查表，因此感觉没有NAS的架构灵活。

这篇文章有很多的细节部分，没有细读，在这里只是总结一下一些大的框架。首先是状态空间的定义：

每个时间步的状态都是上表中四种类型之一，然后允许agent在任意时间步选择终止步从而终止网络结构的搜索。这里可以看出，这篇论文和NAS有一个逻辑定义上的区别，NAS把这篇论文中的state定义为action，因此本文的动作空间就没有NAS中定义的自然，本文的动作空间是根据当前所处的状态不同而不同的，为了使得最后搜索出的架构合理且加速整个训练流程，作者对action的选取增加了很多的限制，比如当当前状态处于第i层时，只能选择层数是i+1的网络类型。

下面是整个算法的伪代码：

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Files

Designing neural network architectures using reinforcement learning.md

Designing neural network architectures using reinforcement learning.md

Files

Designing neural network architectures using reinforcement learning.md

Latest commit

History

Designing neural network architectures using reinforcement learning.md

File metadata and controls