这几天,比国庆火车票还一票难求的NIPS 2018出最终结果了!作为机器学习领域的顶级会议,今年NIPS 之火爆达到了惊人的程度,投稿数量上升至史无前例的 4856 篇,比去年增加了约 50%,接受率保持着与去年持平的20.8%,共接受论文 1011 篇,其中168 篇Spotlight(3.5%),30 篇Oral(0.6%)。

今年,微软亚洲研究院共有10篇论文入选,研究主题涵盖词向量、机器翻译、神经网络优化、社群探索等等。我们在第一时间为大家梳理了这10篇论文的概要。关于论文的详细内容,我们也会在之后陆续推出。

Community Exploration: From Offline Optimization to Online Learning

Xiaowei Chen, Weiran Huang, John Lui, and Wei Chen

假象一个社会场景:作为刚入校的大学生,你想在新学校里通过参加学生活动,在最短的时间内认识尽可能多的朋友。但你参加活动的时间和精力有限,规模不同的社群活动使你结交朋友的几率不同,但你还不了解社群的规模,需要参加活动得到这些信息。怎么样才能最有效地安排参与活动的策略呢?

这个问题可以在在线广告分配、社会调查等很多问题中找到实际的应用场景。在我们的论文中,我们把这一问题抽象定义为社群探索(community exploration)问题:有m个社群,每次你访问一个社群,并在这次访问中以等概率随机遇到一个社群成员;如果你总共有K次访问机会,你该如何将这K次访问分配给m个社群,使得你在这K次访问中遇到的不同人的总人数最多?根据你是否预知每个社群的人数,该问题分为已知社群人数的离线优化问题和未知社群人数的在线学习问题。根据你是事先决定 次访问的分配方案,还是每访问一次后根据反馈调整策略,问题又进一步分为非自适应性和自适应性的问题。我们对这些问题进行了系统性的研究,在离线优化方面,我们证明了贪心算法在非自适应性和自适应性情形下都能给出最优解。在在线学习方面,我们给出了基于置信上界(UCB)的在线学习算法,并给出了算法遗憾度(regret)的分析。

Dialog-to-Action: Conversational Question Answering Over a Large-Scale Knowledge Base

Daya Guo, Duyu Tang, Nan Duan, Ming Zhou, Jian Yin

对话中的多轮问答(conversational question answering)和语义分析(semantic  parsing)是自然语言处理领域的两个核心问题,对语音助手、聊天机器人和搜索引擎都至关重要。在本文中,我们提出了基于知识图谱的对话式语义分析模型,该模型可以有效地处理多轮问答中的上下文指代和省略现象,合理利用对话历史理解当前问题的语义,并推断出其对应的逻辑表达(logical form)。具体来说,输入用户当前的问题及对话历史,该模型会以包含多种逻辑操作(如查找、比较、计数、复制历史逻辑表达等)的语法为基础,使用自顶向下的方式预测出当前问题的逻辑表达。我们在包含20万轮对话的CSQA数据集上进行实验,使用“问题-答案”对作为有指导信息训练模型,结果表明该模型的精度显著优于对比基线算法,并且可以有效地利用历史问题的语义解析结果推断当前问题的逻辑表达。

Frequency-Agnostic Word Representation

Chengyue Gong, Di He, Xu Tan, Tao Qin, Liwei Wang, Tie-Yan Liu

词向量(word embedding)是自然语言处理任务中不可或缺的组成部分。通常人们认为词向量包含丰富的语义信息,语义相似的词具有相似的词向量。然而我们在多种任务中发现事实并非如此。我们发现低频词的词向量编码了更多的词频信息而非语义信息:在词向量空间中,绝大部分低频词的周围聚集了与其含义截然不同的低频词,而那些真正与其语义相似的高频词与这些低频词的距离反而相差甚远。于是,这种编码了词频信息的词向量对于语义分析任务并不完美。

为了消除词表征中的词频信息,我们设计了一个基于对抗神经网络的训练算法。实验表明,基于该算法,新的模型在语义相似度、语言模型、机器翻译、文本分类的十项任务中都取得了更好结果,特别是在语言模型以及机器翻译的四项任务中达到世界最佳。

Frequency-Domain Dynamic Pruning for Convolutional Neural Networks

Zhenhua Liu, Jizheng Xu, Xiulian Peng, Ruiqin Xiong

与传统方法相比,卷积神经网络大幅提高了计算机视觉应用的性能,但需要极大的计算资源和存储要求。裁剪网络系数是减少存储、简化计算的一种有效方法。考虑到卷积神经网络中,卷积滤波器会有很大的空间冗余,我们提出在频率域进行网络系数的动态裁剪的方法,针对每次训练迭代和不同的频带,用动态的阈值来指导裁剪。实验结果表明,频域动态裁剪显著优于传统的空域裁剪方法。特别是对于ResNet-110,在不牺牲网络性能甚至有所提高的情况下,我们的方法可以达到8倍的系数压缩和8.9倍的计算加速。

Layer-Wise Coordination between Encoder and Decoder for Neural Machine Translation

Tianyu He, Xu Tan, Yingce Xia, Di He, Tao Qin, Zhibo Chen, Tie-Yan Liu

神经机器翻译近年来取得的重要进展,依赖于模型结构的逐渐发展演化。在本文中,我们为神经机器翻译提出了逐层协调的概念,用来显式地协调编码器和解码器隐层向量的学习,这种协调是逐层从低级别的向量表示到高级别的向量表示学习。同时,我们通过共享编码器和解码器每层的模型参数,来约束并且协调训练过程。实验表明,结合目前最好的Transformer模型,我们的逐层协调机制在3个IWSLT和2个WMT翻译数据集上取得了较大的精度提升,在WMT16 英语-罗马尼亚、WMT14 英语-德语翻译任务上超过了目前最好的Transformer基准模型。

**

**

Learning to Teach with Dynamic Loss Functions

Lijun Wu, Fei Tian, Yingce Xia, Yang Fan, Tao Qin, Jianhuang Lai, Tie-Yan Liu

在教学场景中,一个好的教师会全面考虑学生的学习状况,为学生设置良好的学习目标。对于人工智能而言,如果我们将机器学习模型看做学生,模型的损失函数(Loss Function)就扮演了上述的学习目标的角色。在经典的学习情境中,损失函数通常是预先给定、保持不变的。在这篇论文中,我们模仿人类老师的行为,用一个机器学习模型(即教师)自动、动态地为另一个机器学习模型(即学生)训练的不同阶段指定不同的损失函数,以提升机器学习(学生)的性能。我们设计了一种高效的基于梯度的优化算法来优化教师模型,避免了传统的基于强化学习算法的采样效率不高的缺陷。在图像分类和机器翻译任务上的大量实验验证了我们的算法的有效性。

Neural Architecture Optimization

Renqian Luo, Fei Tian, Tao Qin, Enhong Chen, Tie-Yan Liu

自动的神经网络结构搜索(Neural Architecture Search,NAS)已经展示了其强大的发现优良神经网络结构的能力。现有的NAS算法主要有两种:一种基于强化学习(Reinforcement Learning),另外一种基于演化计算(evolutionary computing)。两种都在离散的结构空间中进行搜索,因而不够高效。

因此我们提出了一种简单有效的、基于连续空间的优化算法来进行自动结构设计的方法,我们称之为神经网络结构优化(Neural Architecture Optimization, NAO)。NAO的设计核心由三部分组成:

1)一个编码器,将离散的神经网络的结构编�