中心杰出学生及孙茂松团队本科生发表顶级会议论文

时间:2015-04-24浏览:(80)设置

417日,中心机器语言能力研究平台平台长、清华大学计算机系孙茂松教授研究组的论文 “字符与词汇表示的联合学习模型”(Joint Learning of Character and Word Embeddings)被人工智能领域顶级会议“人工智能国际联合大会”(International Joint Conference on Artificial IntelligenceIJCAI 2015)接收。该研究成果由刘知远和孙茂松老师联合指导,由计算机系二年级本科生徐磊与中心杰出学生、计算机系博士生陈新雄合作完成,徐磊与陈新雄为论文共同第一作者。这是计算机系首次有大二本科生以第一作者身份在顶级国际学术会议发表论文。

徐磊同学在大一下学期通过计算机系学术新星计划加入孙茂松教授研究组从事词汇表示学习研究,通过一年的不懈努力,与陈新雄合作取得了该研究成果。论文探索了利用汉字信息增强中文词汇表示学习能力的方法,对中文深度计算相关技术发展具有参考价值。

词汇表示旨在研究如何在计算机中结构化地表示词汇语义信息。伴随大数据时代的来临,如何从大规模文本数据中自动学习词汇表示,成为人工智能与自然语言处理领域的重要研究课题。英语词汇由字母组合而成,与此不同,中文大部分词汇的意义与其中汉字的意义密切相关。然而长期以来,大部分学者主要以英语为对象探索词汇表示学习方法。这些方法难以利用中文词汇内部的汉字信息。

研究组本项目受到国家重点基础研究发展计划(973计划)和国家自然科学基金的支持,聚焦于面向深度学习的低维向量表示方案,提出一种既考虑词汇外部上下文信息,同时考虑词汇内部汉字信息的中文词汇表示学习模型——字符-词汇联合表示模型(Character Word EmbeddingCWE,如图所示)。在词汇相似度计算和类比推理两个验证任务上的实验表明,与传统词汇表示学习模型相比,由于考虑了中文词汇的汉字信息,CWE能够显著提升中文词汇的表示能力。

http://news.tsinghua.edu.cn/publish/news/4205/20150425/81641429928152673.jpg

Character Word EmbeddingCWE)与传统CBOW模型对比

IJCAI始于1969年,最初每2年举行一次,从2014年开始改为每年一次,是人工智能领域的顶级学术会议,被中国计算机学会推荐国际学术会议列表认定为A类会议。IJCAI 2015将于7月底在阿根廷布宜诺斯艾利斯召开,今年共收到1996篇投稿,录用575篇,录用率为28.8%


同栏目信息

热点信息