如何测试ChatGPT的语义理解和常识推理水平？——兼谈大语言模型时代语言学的挑战与机会

doi:10.19689/j.cnki.cn10-1361/h.20240105

UM > Faculty of Arts and Humanities > DEPARTMENT OF CHINESE LANGUAGE AND LITERATURE

Residential College	false
Status	已發表Published
	如何测试ChatGPT的语义理解和常识推理水平？——兼谈大语言模型时代语言学的挑战与机会
	袁毓林1,2
	2023-12
Source Publication	语言战略研究
ISSN	2096-1014
Volume	9 Issue:01 Pages:49-63
Abstract	ChatGPT等大语言模型在语义理解和常识推理方面表现优秀，其技术奥秘在于模型开发者在对词语进行向量表示时，遵循分布式语义学原理，采用了“嵌入”这种代数方法。但是，经典的测试语言运用等智能水平的“图灵测试”，难以识别欺骗和回避等作弊手段，因此，计算机科学家设计了“新图灵测试”，其中的威诺格拉德模式挑战与语言学关系密切。这一模式以代词消歧为测试点设计句子对和问题，但是经过大规模语料训练的语言模型可以凭借词汇上的统计相关性，而不是靠真正理解句子的意义来给出正确答案。为克服这一缺陷，学者们又发展出WinoGrande数据集，提高了数据的规模和难度，确保它们无法通过网络搜索等手段来得到正确答案。我们用威诺格拉德模式设计了无偏向双重句子对测试ChatGPT，展示了大语言模型在语义理解和常识推理方面已达到接近人类的水平。当然，从具身模拟假说来看，大语言模型不可能像人一样富有体验性地理解人类自然语言。最后，我们呼吁：语言学家应该积极参与构建WinoGrade测试集之类的工作，在人工智能时代扩展自身的学术研究领域。
Keyword	Chatgpt 大语言模型新图灵测试威诺格拉德模式挑战 Winogrande数据集
DOI	10.19689/j.cnki.cn10-1361/h.20240105
URL	View the original
Indexed By	核心期刊 ; CSSCI ; 其他Other
Language	中文Chinese
Funding Project	面向可解释AI的语义推理模式与机制研究 ; 新时代中国特色语言学基本理论问题研究 ; 构式语法的理论探索和应用研究
Fulltext Access	View Full-Text via DOI
Citation statistics
Document Type	Journal article
Collection	DEPARTMENT OF CHINESE LANGUAGE AND LITERATURE
Affiliation	1.澳门大学人文学院中国语言文学系 2.北京大学中文系/中国语言学研究中心/计算语言学教育部重点实验室
First Author Affilication	Faculty of Arts and Humanities
Recommended Citation GB/T 7714	袁毓林. 如何测试ChatGPT的语义理解和常识推理水平？——兼谈大语言模型时代语言学的挑战与机会[J]. 语言战略研究, 2023, 9(01), 49-63.
APA	袁毓林.(2023). 如何测试ChatGPT的语义理解和常识推理水平？——兼谈大语言模型时代语言学的挑战与机会. 语言战略研究, 9(01), 49-63.
MLA	袁毓林."如何测试ChatGPT的语义理解和常识推理水平？——兼谈大语言模型时代语言学的挑战与机会".语言战略研究 9.01(2023):49-63.

Files in This Item:
There are no files associated with this item.

If you have any objections to this item, please fill out the form below and the administrator will contact you as soon as possible.
Content:
Email：	*
Affiliation No.
Verification Code:	Refresh

Any comments and suggestions are welcomed.
Title:	*
Content:
Email：	*
Verification Code:	Refresh