专家简介:
熊德意,天津大学智能与计算学部教授、博士生导师,自然语言处理实验室负责人,天津市“一带一路”联合实验室语言智能与技术中外联合研究中心主任。主要研究方向为自然语言处理,特别专注于大语言模型、机器翻译、AI对齐、常识推理、认知计算等方向的研究。在IEEE TPAMI、AI、AAAI、ACL等国际著名期刊和会议上发表论文150余篇,出版中英文专著各一部,受理/授权发明专利30余项,参与编制大模型相关标准多项。相关研究获得国家级、省部级、国际合作、企业委托等20余项项目资助,获得北京市科学技术奖二等奖、中文信息学会中文信息处理科学技术奖青年创新奖一等奖等奖项。担任IALP 2012&2021程序委员会共同主席,CWMT 2017程序委员会共同主席,NeurIPS、ACL、EMNLP、NAACL、COLING、AACL等多个知名国际会议的领域主席、赞助主席、演示主席等,TACL和ARR的执行主编,ACM TALLIP副主编,Data in Brief栏目主编等。领导研制了仁文伏羲大模型,与华为、阿里、字节跳动、OPPO等多家知名企业开展了深入合作。
内容提纲:
近年来,大语言模型飞速发展,在自然语言理解&生成、代码生成、推理、规划、工具使用等多个方面,不断取得突破。能力的快速发展也带来对模型伦理对齐和安全等方面的普遍担忧,如何度量大模型的能力边界,为大模型发展打造安全护栏,成为学术和产业界关注的焦点问题之一,国际上也普遍呼吁构建以评测为基础的负责任的大模型扩展策略,然而,传统的评测基准、方法和体系已不能满足大模型发展的需要。本报告将概述目前大模型评测的主要实践和方法体系,指出存在的问题和挑战,探讨大模型开放评测体系以及大模型评测未来的发展方向。