深度学习 赞美篇

深度学习之赞美篇

作者:老师木

小编:这篇文章是老师木一年多前的观点和看法,虽然近来深度学习横扫各种会议,但大多还是应用上的跟进,深度学习的本质问题依然在那里。如今再回味经典,别有一番滋味在心中。

Deep Learning最近太火了。我或许是国内与deep learning最有缘的人了(神交的那种,在它没火热时,已经做了一些研究,有两岁那年没读ML的论文了,今晚聊deep learning,余凯老师是深交,与Hinton握过手)。我对深度学习感情也无比复杂,曾两次深入探讨这个问题,第二次的讨论因家庭矛盾全删了,以后再补充,题目就叫deep learning之诅咒篇。

Deep Learning的点很多,很难提纲携领的说。总的来说,研究价值大,实用价值小(今天说这话或许要被拍了)。基本思路是模仿人脑的结构实现机器智能,所以这也不是什么新思想,几十年前都有了,现在流行的结构也脱离不了多层前向神经网络。多人脑机制的研究还很初步,任重道远,deep learning这个话题可以说不会死。

无论什么机器学习算法,最终都要求助于计算机解决,又表现为在特定函数空间按某优化目标去搜索一个解出来。这个空间太小,可能距离真实情况太远,这个空间太大,搜索过程无穷无尽。Deep learning说,我们不知道真正的空间是哪个,但人脑这个表示已经证明挺好用,那我们就在人脑表示的空间去搜索一个解吧。

做deep learning研究,一定要弄清楚几个问题:为什么要多层?为什么要非线性?要有什么样的非线性?为什么local receptive field?和mdl,sparse coding的联系等。很多发表了论文的东西也只是一家之言,大部分是扯淡,大部分人做这个研究都无意义。我不否认人脑机制的研究,这些机制的计算原理还蛮有趣。(这一段话要切记)

可以这么说,也可以不这么说。现在流行的sparse概念是传统信号处理和神经科学的合流,俩分支普遍引用的文章都在上世纪九十年代出现。//windwail阿邦:sparse coding就是kmeans的变体,也不比其他变体或者GMM的变体强,等于是分类器集成了图像的特征提取,和神经不神经V1V2没啥关系。

针对谷歌猫脸识别。大数据或许更有利于以机器擅长的方式产生智能,而不是去搞什么模仿人的deep learning。不应该因为deep learning能在若干应用上效果好而去搞他。我相信,不用deep learning,就用一般的技术,搞那么多计算,数据资源,一样能达到谷歌识别猫那种效果。Deep learning是纯好奇心。

Deep learning目前影响比较大的几个工作有:yann lecun的卷积神经网络,hinton的deep network,poggio的hmax。看网络结构和思路都很类似,为什么呢?在他们能之前日本学者在八十年代提过一个cognitron的东西,这些后来的模型都是cognitron的变形。而cognitron就是模仿人类视觉信息处理通路搭建的。

不知道deep learning在模仿人脑,就会对deep learning里的各种做法感到莫名奇怪,甚至觉得完全没有依据和道理。事实上也是如此,那些deep learning的鼓吹者大多数也是拍脑袋拍出来这些稀奇古怪的技巧,千万不要以为那就是金科玉律。他们拍出做法,就自然有很多人给他们找依据,甚至数学证明云云。

关于deep learning论文里那些玄乎的名词术语不要盲从,人家是从神经科学研究借鉴来的思路,人对脑的认识还非常粗浅,他们说sparse coding,deep都是对自己的大脑的理解,也是一家之言,对这些要有自己的思考,而且要从根本上去思考,否则人云亦云,做出来的研究没啥意义。

不懂神经也可以做deep learning,以topic model为代表的hierarchical Bayesian model在解同样的问题,只是deep learning模仿生物神经网络给模型结构加入了一些领域知识。不知道还有人记得说过无监督学习是机器学习的终极问题。Deep learning的宏大目标就包括feature learning,或说learning representation.学习一种合理优秀的表示,不仅用于分类。

Learning representation当然好,机械模仿生物神经网络的结构和行为当然也有一定价值,但这还不够。好的representation一定是捕捉了数据regularity从而使表示又简洁又有效。但regularity的挖掘有何尝容易,搞机器学习的也无非是在一个假设空间找个还凑合的了事。

Deep learning学人脑,人脑有什么特点?人脑的结构特点来自于感官接受到自然界信号的统计规律。而自然界的规律又出自上帝之手。人脑信息处理是分层递阶的。上游感受野范围小选择性简单,下游感受野范围大选择特异性更复杂。这种结构真是上帝的杰作,已经有无数的神经科学家用实验和计算的方式去理解人类为何先天进化和后天发展成现在的模样,这些探索就能解答deep learning中拍脑袋的做法。

Deep learning一定要有非线性元素也来自于数据的局部+分层结构。多少轮线性变换的层叠最终还是线性变换(想象一堆矩阵连称最终结果还是矩阵),从表达能力上看线性单元有些缺陷是突破不了的,非线性也是高阶神经元中stimuli-response观测中广泛存在的。

人脑是外部世界的内在表示,人的感官把外部世界传输进去,大脑要处理理解沟通的都要依赖大脑对外部世界的表示。有科学家说,人脑就是外界的最优表示,最优的含义就是用最小的空间存最多的数据,也就是压缩,而压缩的前提是统计规律的获取。人脑就是在这样一个优化目标的指引下进化发展而来。人脑的智能信息处理机制依赖神经元行为特性及其网络结构,形成外部世界的表示,即模型(大脑结构)来自于数据(外界刺激信号),数据决定了模型,因此要进一步理解脑,一定要理解外部世界。

有没有发现大千世界事物分层组织无所不在,物质粒子结构,个人集体,分层是万事万物极其自然的表示,大脑对它们的表示在进化过程自然的捕捉了这种规律。Deep learning对机器学习的贡献在于使人们重视对表示的学习,不再是以rbf核为代表的整体原型记忆。Deep learning不能解决什么?函数空间的自动确定。

对自然界事物的描述不一定要用分层模型,但当事物本身具有某种统计规律时,能捕捉规律的模型是最简洁有效的。用数学来描述,就是mdl准则,根据数据的真实概率分布去编码能得到最短的表示,信息论中最优编码,哈夫曼编码的道理。接下来我们思考更本质的东西,为什么世间万物都偏爱分层结构?有没有能给点建议。这要借助物理了,粒子引力作用使得相似质量的东西聚在一起。。。。产生自然的分层组织。

妙。Local structure正是来自于神经元/神经元感受野。Local+hierarchy是核心。//@鲁东东胖:其实也不能这么说,deep learning强烈依赖于对local structure的把握,image/speech/甚至text莫不如此。换句话说,对于有明显丰富的local structure的问题,deep learning有可能有比较好的效果。 当把局部结构当作基本单元时,相邻的局部结构从统计上看,又有依赖关系,某种依赖关系构成一种模式,另一种依赖关系又构成另一种模式。依次向上就呈现出分层结构。如果数据简单,分层不是必须的。

事物本身具有分层特性,统计上看,描述事物的数据自然具有分层特性,从数据中推导出的模型也自然也应有的这种特点。Local structure本质是redundancy,相邻的基本单元具有高度相关性(相关性这个词不太准确,一般用于二阶统计量,多个基本单元时也有高阶统计量),这种相邻单元的耦合表现为一个局部结构。

Deep 不是万能的,不能越deep越好,到底多deep其实是一个open问题。

转载请注明:《深度学习 赞美篇 | 我爱计算机

Leave a Reply

Your email address will not be published. Required fields are marked *

36 − = 32