多到数不清。
可梯度下降这么一路滚下来,它不是随便落,而是带着一种说不清道不明的偏好,专往那些最平、最简单的低点里去。
这种没人明写、却实实在在起着作用的偏好,就叫隐式正则化。
机器之所以没把噪声死记下来,不是因为有谁在拦着它,而是因为梯度下降这条路本身,就懒得往那些尖锐、复杂的坑里钻。
至于它为什么懒,数学上是能给出一个说法的。
当一张网络宽到极致的时候,它在训练里的一举一动,会退化成一种早就被研究透了的老东西——核方法。
整个训练过程,近似于围着出发点做一次线性展开,网络几乎不挪窝,只在原地轻轻地晃。
这套理论在圈子里有个名字,叫 NTK机制(神经正切核)。
而这种“原地不动、只轻轻晃”的状态,则被形象地称作懒惰训练。
本站若有图片广告属于第三方接入,非本站所为,广告内容与本站无关,不代表本站立场,请谨慎阅读。
Copyright © 2020 二零小说 All Rights Reserved.kk