Residential College | false |
Status | 已發表Published |
如何测试ChatGPT的语义理解和常识推理水平?——兼谈大语言模型时代语言学的挑战与机会 | |
袁毓林1,2![]() | |
2023-12 | |
Source Publication | 语言战略研究
![]() |
ISSN | 2096-1014 |
Volume | 9Issue:01Pages:49-63 |
Abstract | ChatGPT等大语言模型在语义理解和常识推理方面表现优秀,其技术奥秘在于模型开发者在对词语进行向量表示时,遵循分布式语义学原理,采用了“嵌入”这种代数方法。但是,经典的测试语言运用等智能水平的“图灵测试”,难以识别欺骗和回避等作弊手段,因此,计算机科学家设计了“新图灵测试”,其中的威诺格拉德模式挑战与语言学关系密切。这一模式以代词消歧为测试点设计句子对和问题,但是经过大规模语料训练的语言模型可以凭借词汇上的统计相关性,而不是靠真正理解句子的意义来给出正确答案。为克服这一缺陷,学者们又发展出WinoGrande数据集,提高了数据的规模和难度,确保它们无法通过网络搜索等手段来得到正确答案。我们用威诺格拉德模式设计了无偏向双重句子对测试ChatGPT,展示了大语言模型在语义理解和常识推理方面已达到接近人类的水平。当然,从具身模拟假说来看,大语言模型不可能像人一样富有体验性地理解人类自然语言。最后,我们呼吁:语言学家应该积极参与构建WinoGrade测试集之类的工作,在人工智能时代扩展自身的学术研究领域。 |
Keyword | Chatgpt 大语言模型 新图灵测试 威诺格拉德模式挑战 Winogrande数据集 |
DOI | 10.19689/j.cnki.cn10-1361/h.20240105 |
URL | View the original |
Indexed By | 核心期刊 ; CSSCI ; 其他Other |
Language | 中文Chinese |
Funding Project | 面向可解释AI的语义推理模式与机制研究 ; 新时代中国特色语言学基本理论问题研究 ; 构式语法的理论探索和应用研究 |
Fulltext Access | |
Citation statistics | |
Document Type | Journal article |
Collection | DEPARTMENT OF CHINESE LANGUAGE AND LITERATURE |
Affiliation | 1.澳门大学人文学院中国语言文学系 2.北京大学 中文系/中国语言学研究中心/计算语言学教育部重点实验室 |
First Author Affilication | Faculty of Arts and Humanities |
Recommended Citation GB/T 7714 | 袁毓林. 如何测试ChatGPT的语义理解和常识推理水平?——兼谈大语言模型时代语言学的挑战与机会[J]. 语言战略研究, 2023, 9(01), 49-63. |
APA | 袁毓林.(2023). 如何测试ChatGPT的语义理解和常识推理水平?——兼谈大语言模型时代语言学的挑战与机会. 语言战略研究, 9(01), 49-63. |
MLA | 袁毓林."如何测试ChatGPT的语义理解和常识推理水平?——兼谈大语言模型时代语言学的挑战与机会".语言战略研究 9.01(2023):49-63. |
Files in This Item: | There are no files associated with this item. |
Items in the repository are protected by copyright, with all rights reserved, unless otherwise indicated.
Edit Comment