Qian Xinyuan
钱馨园博士于英国爱丁堡大学获电子电气工程学士(一等荣誉)和硕士(卓越)学位,于英国伦敦玛丽女王大学获计算机博士学位,期间曾赴意大利FBK研究所交流,后就职于新加坡国立大学与香港中文大学(深圳),现任北京科技大学计算机与通信工程学院副教授。她的研究方向为语音信号处理、视听觉融合、多模态人机交互。她曾作为新加坡A*STAR资助的人机交互(HRI)项目的主要负责人,带领团队完成视听觉说话人定位及追踪、基于音视频自监督学习的说话人识别、语音识别/提取等智能语音任务。参与了基于视觉线索的实时说话人声音提取系统研究和基于多模态自监督预训练技术的应用研究。她主持/主要参与了包括国家自然科学基金、深圳市大数据研究院项目、华为技术合作项目和腾讯AI Lab犀牛鸟专项等多项科研基金。她已在国际顶级会议及期刊上发表论文40余篇,包括TASLP,TMM,CVPR, ICASSP等。她曾获英国爱丁堡大学国际交流学术奖学金,苏格兰女性工程师科研助学金,英国博士全额奖学金,2021年COCOSDA最佳论文奖,并担任ICSR2021程序委员与IROS2023副编辑。(个人主页:https://catherine-qian.github.io/)
课题组开展以深度学习为核心的语音信号处理、视觉+听觉多模态人工智能、语音人机交互的研究,学生可以根据兴趣自由选择。
现招收2024/25级计算机相关专业硕士研究生、博士研究生,也欢迎优秀的本科生加入。欢迎计算机基础较好 (最好有程序设计竞赛/科研/论文发表经历), 对科研有浓厚兴趣, 有志于攻读硕士/博士研究生和出国深造的同学联系我 (CV及自我介绍发送至qianxy@ustb.edu.cn)。
[1] Xinyuan Qian; Zhengdong Wang; Jiadong Wang; Guohui Guan; Haizhou Li; Audio-visual Cross-Attention Network for Robotic Speaker Tracking, IEEE/ACM Trans. on Audio, Speech, and Language Processing, 2022, 31:550-562 (SCI, 中科院一区Top期刊)
[2] Xinyuan Qian, Wei Xue, Qiquan Zhang, Ruijie Tao, Haizhou Li, Deep Cross-Modal Retrieval Between Spatial Image and Acoustic Speech[J]. IEEE Transactions on Multimedia, 2023. (SCI, 中科院一区, Top期刊)
[3] Xinyuan Qian; Alessio Brutti; Oswald Lanz; Maurizio Omologo; Andrea Cavallaro; Multi-speaker Tracking From an Audio–visual Sensing Device, IEEE Trans. on Multimedia, 2019, 21(10) : 2576 -2588 (SCI, 中科院一区Top期刊)
[4] Xinyuan Qian; Alessio Brutti; Oswald Lanz; Maurizio Omologo; Andrea Cavallaro ; Audio-visual Tracking of Concurrent speakers, IEEE Trans. on Multimedia, 2021, 24: 942-954 (SCI, 中科院一区Top期刊)
[5] Jiadong Wang, Xinyuan Qian*; Malu Zhang, Ruijie Tang, Haizhou Li, Seeing what you said: talking face generation guided by a lip-reading expert, IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2023 (CCF-A类会议)
纵向项目:
国家自然科学基金青年项目
北京市自然科学基金-小米联合创新专项
横向项目:
CCF-腾讯AI Lab犀牛鸟项目
Eigenspace语音技术开发项目