技术:RAdam优化器又进化:与LookAhead强强结合,性能更优速度更快
本篇文章1658字,读完约4分钟
主题: radam优化器和进化:与lookahead强烈结合,性能更好,速度更快的源:量子位
关注尖端科技
鱼羊编辑整理
量子位报道|公众号qbitai
上周,来自uiuc的中国博士生liyuan liu提出了兼具adam和sgd两种美的新优化器radam,收敛速度快,还很稳健,曾经登上github趋势排行榜。
今年7月,图灵奖获得者hinton的团队也同样在优化程序上下了功夫,改良sgd,提出了在各种深度的学习任务中实现更快速收敛的新优化程序lookahead。
那么,两者结合起来会怎么样呢?
称赞那个radam是最先进的ai优化装置的架构师less wright不仅这么想,而且真的这么做了。
同时,我发现radam和lookahead的组合进一步优化了radam的效果。
less wright将此协作组合命名为ranger,将其开源集成到fastai中。
radam的先进之处在于,可以根据分散分散度动态地打开或关闭自适应学习率,提供不需要可调整的参数学习率预热的方法。 兼具adam和sgd两者的优点,保证了收敛速度快,难以降到局部最佳解,在大的学习率上比sgd精度更好。
量子比特详细解读: MP.weixin.QQ/s/scgkumj4LzulhMK 69 VWYPA
lookahead受到深度神经网络损失表面的发展的启发,可以稳定深度学习训练和收敛速度。 lookahead小组介绍如下。
lookahead减少了需要调整的超级参数,以最小的计算开销实现不同深度学习任务的更快收敛。
两者从不同的立场着手,分别在深度学习的优化上实现了新的突破,但更棒的是,它们的组合具有高度的协同性。
根据radam的优势,分散稳定后,在剩下的训练阶段,radam几乎等于adam和sgd。 也就是说,radam的改善是训练才刚刚开始的时候。
lookahead的原理是保持两组权重,在它们之间进行插值。 向前搜索更快的权重集,将更慢的权重留在后面以提供更长的时间稳定性。
也就是说,lookahead实际上保存附加的加权副本,让内部化的“更快”优化程序对5个或6个batch进行训练。 批处理解析的间隔由k参数指定。
所以即使在1000个epoch之后,lookahead也可以超过sgd。
同时,这是与lookahead一起执行的、得到“高速”权重的优化器,可以是任何优化器。 比如radam。
因此,less wright愉快地组合了radam和lookahead,形成了名为ranger的新优化器。
他用imagenette进行了测试,在128px、20epoch的测试中,ranger的训练精度达到了93%,比现在的fastai排行榜第一名提高了1%。
但是,less wright先生说,在这一尝试中,采用lookahead的radam的k参数和学习速率需要进一步测试优化。 但是,与迄今为止最先进的做法相比,radam + lookahead需要手动调整的超参数大幅减少。
ranger的代码实现是开源的,与fastai集成。 如果你也对这个尝试感兴趣的话,现在就可以自己做实验。
首先,将ranger.py复制到业务目录中。
还有import ranger。
在fastai中采用ranger,创建指向opt_func的partial。
可以开始测试。
github地址:
github/lessw/ranger-deep-learning-optimizer? source = post _ page-- 2dc 83 f 79 a 48 d-- -
博客地址:
medium/@ lessw/new-deep-learning-optimizer-ranger-synergistic-combination-of-radam-loka CK
lookahead论文地址:
arxiv/abs/1907.08610v1
radam论文地址:
arxiv/abs/1908.03265
标题:技术:RAdam优化器又进化:与LookAhead强强结合,性能更优速度更快
地址:http://www.greenichiban.com/news/10503.html
免责声明:国际科技时报是中国具有影响力的科技媒体,以全球视角,第一时间呈现最新科技资讯。所著的内容转载自互联网,本站不为其真实性负责,只为传播网络信息为目的,非商业用途,如有异议请及时联系btr2031@163.com,国际科技时报的作者:何鸿宝将予以删除。
下一篇:技术:网易22年:丁磊的易与不易