如何测试ChatGPT的语义理解与常识推理水平？——兼谈语言大模型时代语言学的挑战与机会

UM > Faculty of Arts and Humanities > DEPARTMENT OF CHINESE LANGUAGE AND LITERATURE

Residential College	false
Status	已發表Published
	如何测试ChatGPT的语义理解与常识推理水平？——兼谈语言大模型时代语言学的挑战与机会
	袁毓林
	2023-11-20
Size of Audience	未统计
Type of Speaker	主旨报告
Abstract	ChatGPT等大语言模型在语义理解和常识推理方面表现优秀，其技术奥秘在于模型开发者在对词语进行向量表示时，遵循分布式语义学原理，采用了“嵌入”这种代数方法。但是，经典的测试语言运用等智能水平的“图灵测试”，难以识别欺骗和回避等作弊手段，因此，计算机科学家设计了“新图灵测试”，其中的威诺格拉德模式挑战与语言学关系密切。这一模式以代词消歧为测试点设计句子对和问题，但是经过大规模语料训练的语言模型可以凭借词汇上的统计相关性，而不是靠真正理解句子的意义来给出正确答案。为克服这一缺陷，学者们又发展出WinoGrande数据集，提高了数据的规模和难度，确保它们无法通过网络搜索等手段来得到正确答案。我们用威诺格拉德模式设计了无偏向双重句子对测试ChatGPT，展示了大语言模型在语义理解和常识推理方面已达到接近人类的水平。当然，从具身模拟假说来看，大语言模型不可能像人一样富有体验性地理解人类自然语言。最后，我们呼吁：语言学家应该积极参与构建WinoGrade测试集之类的工作，在人工智能时代扩展自身的学术研究领域。
Keyword	Chatgpt 大语言模型新图灵测试威诺格拉德模式挑战 Winogrande数据集
Author of Source	澳门大学
Source Publication	第九届现代汉语句法语义前沿研讨会
Conference Date	2023年11月20-21日
Language	中文Chinese
Document Type	Presentation
Collection	DEPARTMENT OF CHINESE LANGUAGE AND LITERATURE
Affiliation	澳门大学人文学院中国语言文学系
First Author Affilication	Faculty of Arts and Humanities
Recommended Citation GB/T 7714	袁毓林. 如何测试ChatGPT的语义理解与常识推理水平？——兼谈语言大模型时代语言学的挑战与机会[Z]. 第九届现代汉语句法语义前沿研讨会, 2023年11月20-21日.

Files in This Item:
There are no files associated with this item.

If you have any objections to this item, please fill out the form below and the administrator will contact you as soon as possible.
Content:
Email：	*
Affiliation No.
Verification Code:	Refresh

Any comments and suggestions are welcomed.
Title:	*
Content:
Email：	*
Verification Code:	Refresh