Residential College | false |
Status | 已發表Published |
如何测试ChatGPT的语义理解与常识推理水平?——兼谈语言大模型时代语言学的挑战与机会 | |
袁毓林 | |
2023-11-20 | |
Size of Audience | 未统计 |
Type of Speaker | 主旨报告 |
Abstract | ChatGPT等大语言模型在语义理解和常识推理方面表现优秀,其技术奥秘在于模型开发者在对词语进行向量表示时,遵循分布式语义学原理,采用了“嵌入”这种代数方法。但是,经典的测试语言运用等智能水平的“图灵测试”,难以识别欺骗和回避等作弊手段,因此,计算机科学家设计了“新图灵测试”,其中的威诺格拉德模式挑战与语言学关系密切。这一模式以代词消歧为测试点设计句子对和问题,但是经过大规模语料训练的语言模型可以凭借词汇上的统计相关性,而不是靠真正理解句子的意义来给出正确答案。为克服这一缺陷,学者们又发展出WinoGrande数据集,提高了数据的规模和难度,确保它们无法通过网络搜索等手段来得到正确答案。我们用威诺格拉德模式设计了无偏向双重句子对测试ChatGPT,展示了大语言模型在语义理解和常识推理方面已达到接近人类的水平。当然,从具身模拟假说来看,大语言模型不可能像人一样富有体验性地理解人类自然语言。最后,我们呼吁:语言学家应该积极参与构建WinoGrade测试集之类的工作,在人工智能时代扩展自身的学术研究领域。 |
Keyword | Chatgpt 大语言模型 新图灵测试 威诺格拉德模式挑战 Winogrande数据集 |
Author of Source | 澳门大学 |
Source Publication | 第九届现代汉语句法语义前沿研讨会 |
Conference Date | 2023年11月20-21日 |
Language | 中文Chinese |
Document Type | Presentation |
Collection | DEPARTMENT OF CHINESE LANGUAGE AND LITERATURE |
Affiliation | 澳门大学人文学院中国语言文学系 |
First Author Affilication | Faculty of Arts and Humanities |
Recommended Citation GB/T 7714 | 袁毓林. 如何测试ChatGPT的语义理解与常识推理水平?——兼谈语言大模型时代语言学的挑战与机会[Z]. 第九届现代汉语句法语义前沿研讨会, 2023年11月20-21日. |
Files in This Item: | There are no files associated with this item. |
Items in the repository are protected by copyright, with all rights reserved, unless otherwise indicated.
Edit Comment