北京科技大学计算机与通信工程学院-金秋十月丹桂飘香，智能识别千里传音——北京科技大学模式识别与人工智能技术创新实验室近期研究进展侧记

学院新闻

金秋十月丹桂飘香，智能识别千里传音——北京科技大学模式识别与人工智能技术创新实验室近期研究进展侧记

来源：日期：2019-10-31 点击量：

北京科技大学模式识别与人工智能技术创新实验室专注于模式识别与计算机视觉、机器学习、文档分析与识别（文字识别）、语音识别与自然语言处理等领域应用研究与技术创新，重点关注面向网络图像视频大数据的智能识别技术和面向边缘计算（AI芯片）的人工智能技术。

团队现有3名副教授、2名讲师/博士后和40余名博士硕士研究生，在团队负责人殷绪成教授的带领下，近期在智能识别技术方面取得了一系列突破性研究进展：先后在国际文档分析与识别大会ICDAR 2019（澳洲悉尼）、全球顶级语音语言学术会议INTERSPEECH 2019（奥地利格拉茨）和国际顶级多媒体学术会议 ACM Multimedia 2019（法国尼斯）上发表一系列研究成果，并再次在国际文档分析与识别大会技术竞赛中夺冠。迄今为止团队已连续四届（2013、2015、2017和2019年）荣获该项国际权威技术竞赛共19项冠军。

一、提出文字识别新方法——国际文档分析与识别大会ICDAR 2019侧记

2019年9月20日至25日，第十五届国际文档分析与识别大会（International Conference on Document Analysis and Recognition, ICDAR 2019）在澳大利亚悉尼国际会议中心召开，模式识别与人工智能技术创新实验室文字识别研究组发表了文本检测新方法论文（ “Detecting Text in News Images with Similarity Embedded Proposals”）。该论文提出了一种基于相似度嵌入机制的文本检测新方法，通过预测精细候选框之间的相似度，自动学习与构建文本行，有效地解决了复杂场景文本检测的文本框粘连问题，在新闻实验数据集和ICDAR测试数据集上相对基准模型的检测性能（F-Score）分别提升了25.2%和8.9%。

图1. 实验室团队发表在ICDAR 2019上的论文.

在本届技术竞赛上，模式识别与人工智能技术创新实验室联合腾讯科技荣获“多语言场景文本检测与识别（ICDAR-MLT）”端到端文本识别、多语言文本检测、文本语言鉴别，“大规模弱标注街景文字识别（ICDAR-LSVT）”端到端文本识别、文本检测，“中文招牌图像文字识别（ICDAR-ReCTS）”端到端文本识别等共七项冠军。在跨语言语种、复杂背景、复杂排版、模糊多变等复杂环境下的文本检测与识别技术方面，取得了方法创新和技术突破。模式识别实验室已经连续四届（2013、2015、2017和2019年）荣获国际文档分析与识别大会技术竞赛共十九项冠军。

模式识别实验室新闻报道-20191028-V3.01260.png

图2. 实验室团队在国际文档分析与识别大赛技术竞赛获奖.

国际文档分析与识别大会（ICDAR）是国际模式识别、文字识别领域最重要的学术会议，由国际模式识别协会组织，每两年举办一次,今年为第十五届。会议涵盖文档分析与识别领域的最新学术成果和前沿发展趋势，吸引了全球顶尖研发团队和专家学者的参加。

国际文档分析与识别大会技术竞赛是国际模式识别领域最权威的重要赛事。本届技术竞赛吸引了国内来自腾讯、阿里、百度、华为等著名企业，以及北京科技大学、中国科学院、清华大学、北京大学、华中科技大学、华南理工大学等知名科研院所的上百支队伍参与。

二、取得语音识别新突破——国际语音语言学术会议INTERSPEECH 2019侧记

2019年9月15日至19日，国际语音语言学术会议INTERSPEECH 2019在奥地利格拉茨会议中心展览馆召开，参会人数超过2000人，吸引了全球数百家语音领域科研机构和企业厂商亲临现场。在亿智电子科技的支持下，模式识别与人工智能技术创新实验室AI芯片算法组发表了语音情感识别新方法论文（“Pyramid Memory Block and Timestep Attention for Speech Emotion Recognition”）。作为大会“Representation Learning of Emotion and Paralinguistics”主题Section六篇ORAL报告论文之一，也是六篇论文中唯一的中国作者和华人作者论文。

模式识别实验室新闻报道-20191028-V3.01898.png

图3. 实验室团队成员发表在INTERSPEECH 2019上的论文.

模式识别实验室新闻报道-20191028-V3.01936.png

图4. 实验室团队成员在INTERSPEECH 2019上的口头汇报.

该论文提出了面向语音情感识别的深度时序记忆网络新模型，嵌入了基于金字塔的记忆新模块和基于时间步的注意力新机制，显著地提高了模型的泛化能力，使得语音情感识别任务不再依赖于复杂的人工设计特征，仅使用语谱图作为模型输入就能达到甚至超过传统方法的性能。

INTERSPEECH是国际语音语言领域顶级的学术会议，为国际语音通讯学会（International Speech Communication Association）的学术年会。INTERSPEECH 2019以“Crossroads of Speech and Language”为主题，探讨语言多样性、应用多样性以及表达方式多样性，覆盖语音合成、语音识别、语义理解等重要语音交互领域，见证当前语音技术发展成果及语音技术发展趋势。

三、探索人脸识别新技术——国际多媒体学术会议ACM Multimedia 2019侧记

2019年10月21日至25日，第二十七届国际多媒体学术会议（ACM Multimedia 2019）在法国尼斯召开，会议在视觉理解、三维处理、对抗网络、跨模态文字转换、多媒体问答等方面展开广泛讨论和交流。模式识别与人工智能技术创新实验室AI芯片算法组联合亿智电子科技，发表了人脸检测新技术论文（“Joint Rotation-Invariance Face Detection and Alignment with Angle-Sensitivity Cascaded Networks”）。

模式识别实验室新闻报道-20191028-V3.02608.png

图5. 实验室团队发表在ACM Multimedia 2019上的论文.

该论文旨在解决非约束场景下人脸及其关键点检测的问题，克服现有旋转人脸检测方法中人脸检测与关键点定位信息分离问题，构建了人脸检测与关键点定位统一学习的整体框架，利用级联的思想将复杂任务解耦，在保持实时检测速度的情况下提升人脸检测的准确度。

图6. 实验室论文在ACM Multimedia上的Spotlight.

ACM Multimedia是国际多媒体领域顶级的学术会议，由国际计算机协会（ACM）SIGMM组织，从1993年开始，每年举办一次,今年为第二十七届。ACM Multimedia也是中国计算机学会（CCF）推荐的计算机图形图像与多媒体领域权威会议（A类会议）。