技术达人 刘知远 专访

受访人:刘知远,清华大学助理教授,博导
采访人:白雪,龙星镖局

1.请简单介绍下自己呗。

直接贴一下我的个人简介好了:清华大学计算机系助理教授、博士生导师。主要研究方向为表示学习、知识图谱和社会计算。2011年获得清华大学博士学位,已在AAAI、IJCAI、ACL等人工智能领域的著名国际期刊和会议发表相关论文30余篇,Google Scholar统计引用超过1200次。承担多项国家自然科学基金。曾获清华大学优秀博士学位论文、中国人工智能学会优秀博士学位论文、清华大学优秀博士后、中文信息学会青年创新奖,入选CCF-Intel青年学者提升计划、中国科学青年人才托举工程。担任中文信息学会青年工作委员会执委、副主任,中文信息学会社会媒体处理专委会委员、秘书,SCI期刊Frontiers of Computer Science青年编委。其他信息可以访问我的主页:http://nlp.csai.tsinghua.edu.cn/~lzy/。

2.知识图谱适合什么样的应用前景,这块前景怎么样。

知识图谱(knowledge graph)实际上是Google推出世界知识库的名称,因为太深入人心了所以后来泛指各种大规模世界知识库或领域知识库。知识图谱提供了实体间的结构化关联关系,已经被用于以下场景:(1)查询理解,现在主流商业搜索引擎都会对查询词进行实体链接,返回与实体相关的结构化信息。(2)知识问答,事实问答是问答系统的关键组成部分,很多搜索引擎和商业对话系统都提供了基于知识图谱的事实问答功能。我非常看好知识图谱的应用前景,就像人类智能离不开知识一样,人工智能同样需要知识的支持。例如,现在NLP中炙手可热的“阅读理解”任务,只能根据指定文档内容进行推理预测,而真正的人类“阅读理解”则需要文档之外海量知识的支持。随着知识图谱的不断扩充,知识图谱将成为人工智能的推理能力重要基础,在自然语言理解和生成等关键任务中发挥重要作用。

3.深度学习对于知识图谱和自然语言处理的发展的利弊是什么?

深度学习对自然语言处理的伟大意义可能在于,真正让研究者摆脱了复杂的特征工程,从而可以专注于解决相关任务更加宏观的关键问题。而深度学习的弊端可能在于,让一切处于神经网络的黑盒之中,缺少了必要的直观性和鲁棒性。我认为,如何将人类先验知识融入深度学习,提高深度学习框架的可解释性和鲁棒性,将是深度学习未来发展的重要方向。

4.自然语言处理研究应该如何入手?对于刚进入这个领域的新手有什么建议。

我之前准备过一份入门推荐书目。对于刚进入这个领域的新手,当务之急是掌握相关基础术语和思想,建议可以通过吴军老师的《数学之美》和斯坦福大学的《信息检索导论》入手。

5.表示学习在深度学习领域有着重要地位,能否认为表示学习是机器学习领域的一大突破?

深度学习是表示学习的方法之一,而在深度学习兴起之前,就有很多关于表示学习的研究。现在常说的表示学习,更多是指分布式表示(Distributed Representation),其优势在于能够将不同对象映射到相同语义空间中,从而可以高效地进行语义计算,而其缺点在于,如前所述,表示向量中的每一维没有语义含义,缺少可解释性。而NLP还有一种重要的表示方案,叫做离散式表示(Distributional Representation),以词语为例,每个词可以用它在大规模文本中的上下文词语的频度表示,在这里,每一维对应一个确定的词,因此具有较好的可解释性。离散式表示仍然是NLP中的重要表示方式,大家可以参考这篇经典综述了解相关知识:From frequency to meaning: Vector space models of semantics, JAIR, 2010。

6.自然语言处理有哪些研究方向很重要,但还未引起重视?

自然语言处理离不开基础语料库和知识库的建设,我认为在这方面中文世界的重视还不够。在中文世界有影响的知识库屈指可数,相关应用和影响力也非常有限。例如HowNet、同义词词林是这方面的杰出代表,都是相关学者花费数年精力建立的宝藏,值得深入挖掘与探索:例如哈尔滨工业大学刘挺老师团队发表在ACL 2014年的Learning Semantic Hierarchies via Word Embeddings,就是利用word2vec词表示技术结合同义词词林学习上下位关系的优秀成果;我们团队在ACL 2017上也发表了一篇Improved Word Representation Learning with Sememes,利用HowNet的义元标注信息,有效提升了词表示学习的效果。

7.您自己对于计算机博士的定位和预期如何?

我认为读博士主要是经过几个不同层次的历练。首先是锻炼解决开放问题的能力,计算机是个年轻的学科,很多方向尚未形成完善的技术框架,因此在IT科技公司的很多岗位上每天面对的都是开放问题。这也是为什么Google、Facebook等很多高科技公司喜欢招收博士的原因。其次是通过几年的专注钻研,成为某个领域的知名专家,在国内甚至国际上,只要一提到这个方向就能想到你。最后是经过多年的努力,能够推动甚至引领某个方向的发展。也并不是说不读博士就做不到以上几点,只是博士生的培养目标更贴近这三点。

8.看到老师一直在招博士或访问学者等,可以跟大家说下这方面的情况吗?方便对您研究领域感兴趣的同学跟您一起学习。

我的研究兴趣比较广泛,包括文本表示学习、知识图谱和社会计算,更详细的情况可以看我的主页。这里我更想说的是,我认为高校老师更重要的职责是培养人。小时候我就喜欢玩给弟弟妹妹们上课的游戏,可以说做老师是我从小以来的梦想。我最大的快乐就是能够帮助那些有潜力的年轻同学建立学术和职业志趣。自然语言处理是人工智能得以实现的关键,人类语言也是充满未知的领域,希望更多年轻同学加入进来,一起探索前行。

9.您现在已经做了很多研究成果,自己最满意的一项工作是哪个,为什么?

很难评价,其实最近开展的知识表示学习、神经网络关系抽取以及网络表示学习等工作都一定程度上具有比较好的原创性,推动了相关方向的发展。不过与NLP领域最好的研究成果相比,我们做的大部分工作仍然是增量式的。希望自己和团队能够继续努力和积累,做出更让人自豪的成果。

10.现在很多科研大V也在做科普,在网上普及知识或辟谣,对于结合科研做科普,有什么看法?

参加过国际会议的人都有感觉,那些顶级研究组的学者都非常重视研究成果的介绍与宣传,他们在会议上的报告展示都经过认真的准备与演练。国外也有很多专业媒体如MIT Technology Review等专注最新研究动态与成果的引介与深入报道。随着社会媒体的发展,利用微博、知乎、微信公众号宣传研究成果,毫无疑问对于增进学术交流,促进研究发展具有重要意义。我认为国内已经取得很多优秀研究成果,而在宣传意识和技巧方面还有很大差距,不仅体现在学术会议的报告展示,也体现在媒体报道方面。“言之无文,行而不远”,除了继续提升研究水准外,成果科普方面我们也需要努力。

转载请注明:《 技术达人 刘知远 专访 | 我爱计算机