院长信箱
当前位置: 首页>学院动态
学院新闻

计算机与通信工程学院召开2024-2025学年春季学期首场教职工理论学习会

来源:  日期:2025-03-04  点击量:

2月27日,计算机与通信工程学院在机电信息楼203召开2024-2025学年春季学期首场教职工理论学习会,计算机科学与技术系刘健副教授作《DeepSeek:下一代大语言模型推理技术突破》专题报告。计通学院党政班子全体成员、全体教职工参会。

17DE5678F5E15D2150E9700A2BF_3723E5DF_120562.jpg

刘健首先介绍了传统大语言模型(LLM)的工作原理与特点。他指出,通用的大语言模型并不具备推理能力,无法使其进行“思考”。因此,通过强化学习(RL)形成“思维链”是LLM推理的主要范式。纵观大语言模型在形成推理能力的历史进程中,更长的“思维链”会带来更好的推理效果。这也是DeepSeek发展与逐步成熟的重要背景。

随后,他围绕DeepSeek V3与Deepseek R1两大重要版本的迭代历程与性能指标,详细介绍了 DeepSeek 的技术优势。相比现有模型,DeepSeek V3通过模型架构改进、多种并行化训练策略相结合、FP8混合精度训练等有效措施,大大提升了版本的性能,有效地降低了成本。DeepSeek R1则进一步通过简单无标注的强化学习,形成更长的“思维链”,在仅有极少标注数据的情况下,极大提升了模型推理能力。此外,DeepSeek不仅将 R1 训练技术全部公开,还蒸馏了若干小模型向社区开源,使广大用户受益。

通过本次学习活动,计通学院与会教职工对处于前沿领域的大模型有了更为深刻的认知。展望未来,计通学院将有序、持续地开展学科相关领域技术交流活动,积极推动教职工在人工智能领域的技术研究和教学应用层面的深度探索,为学科蓬勃发展与高素质人才培养注入新动能。


  • 计通NEWS
  • 索思