近期,我校模式识别与人工智能技术创新实验室殷绪成教授团队,提出了一种基于文字/文本组件连接的检测任意形状文本的方法,利用深度图卷积神经网络来进行组件之间的深度关系推理,有效地学习与推理文字/文本组件之间的连接及语义关系,高精度地检测复杂场景图像视频中的任意形状文本,场景图像视频中文本检测与识别广泛应用于在线教育、产品搜索、即时翻译和视频场景理解等领域。
国际计算机视觉与模式识别顶级会议(IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2020)将以计算机与通信工程学院计算机科学与技术系2018级硕士生张世学为第一作者、模式识别与人工智能技术创新实验室主任殷绪成教授为通信作者的论文“Deep Relational Reasoning Graph Network for Arbitrary Shape Text Detection”,接收为Oral论文,张世学在大会上作了论文专题报告。
(论文下载可点击“阅读原文”链接。)
IEEE Conference on Computer Vision and Pattern Recognition(CVPR),是计算机视觉、模式识别领域最顶级的国际会议,为中国计算机学会(CCF)推荐的A类会议。根据最新Google Scholar Citation(2020年7月)统计,CVPR位列总榜第5名,在计算机学科及人工智能领域均排名第1,H5-index为299。
张世学同学为计通学院物联网专业2018届本科毕业生,同年推免到学院模式识别与人工智能技术创新实验室殷绪成教授团队攻读计算机科学与技术专业硕士研究生。他的研究方向为模式识别、文字识别,从大四进入实验室学习与研究以来,在场景文本检测与识别方面进行了较深入的研究,取得了令人深刻的成绩,以第一作者发表CVPR 2020 Oral论文一篇,在投IEEE Trans. Pattern Analysis and Machine Intelligence(T-PAMI)论文一篇。CVPR、T-PAMI分别为人工智能、计算机视觉、模式识别领域最顶级的国际会议和国际期刊,也是CCF推荐的A类会议和期刊。
“阅读原文”链接: