上线没到一个月,ChatGPT 已经被网友玩出了“花”:写诗、编剧本、写代码、做计算题……在 ChatGPT 获得颇多赞誉的同时,近来一些学术界教授却发现了它另一种令人担忧的用途:学生正在利用 ChatGPT 代写论文。
为此,弗曼大学哲学助理教授 Darren Hick 还在 Facebook 上发布了一篇长文,开头就是:“今天,我把我抓到的第一个利用 AI 写论文的作弊者报上去了,我想有些人可能会对其中的细节感到好奇。”
句法连贯,但毫无意义
事情的起因,是 Darren Hick 要求学生课后写一篇 500 字的文章,主题关于 18 世纪哲学家大卫 • 休谟和恐怖悖论,即研究人们是如何从他们害怕的东西中获得乐趣的。
很正常的一个作业,也并没有什么特别的难度,至少 Darren Hick 是这么认为的——所以他事先怎么也没想到,居然会有学生用 ChatGPT 来写这篇文章。
“有一篇文章很特别,看起来很干净,但隐约能看出 AI 的痕迹。它写得很像一个非常聪明的 12 年级学生写的。”Darren Hick 指出,ChatGPT 的回答会用一些没有错、但特别奇怪的措辞,就像你教别人怎么写文章时,对方还没搞清楚自己风格之前的写法。
Darren Hick 表示:“就我而言,我认为这篇文章可能是用 AI 生成的第一个迹象是:尽管文章的句法连贯,但它毫无意义。”
具体来说,这篇可疑文章的主题是大卫 • 休谟和恐怖悖论,的确没跑题,但全文却以一种完全错误的方式“自信而彻底地描述了休谟关于恐怖悖论的观点”。文章确实说了一些关于休谟的真实事件,也介绍了恐怖悖论的概念,但之后就全是胡扯了。
如果是一个根本不了解大卫 • 休谟和恐怖悖论的人来看这篇文章,可能不会发现任何问题,说不定还觉得很好理解;但对于 Darren Hick 来说,这篇文章就完全是“狗屁不通”了。
由 GPT 技术生成的可能性:99.9%
有了这个怀疑后,Darren Hick 便开始思考:要如何证实他的猜测?
所幸,Darren Hick 知道开发 ChatGPT 的同一个团队还开发了 GPT 检测器(
https://huggingface.co/openai-detector/),它使用与 ChatGPT 生成响应相同的方法来分析文本,可以计算文本是由 GPT 技术生成的可能性。
于是,Darren Hick 便将他怀疑的这篇文章复制到 GPT 检测器中,发现其中任意一段都有 99.9% 的可能性是由 GPT 技术生成的:“这让我对我的假设有了信心。”
但与我们日常查重论文时会体现原文来自哪里的软件不同,即便检测到了 99.9% 的可能性,GPT 检测器也没有提供任何引证——第一个问题是,ChatGPT 不搜索互联网,所以只要数据不在它的训练数据中,它就无法访问;第二个问题是,ChatGPT 没有办法展示它是如何产生答案的。
不过,Darren Hick 发现,虽然每次对 ChatGPT 进行提问它都会给出些许不同的答案,但“在文章结构上有一些一致性”。因此,Darren Hick 开始场景复现:他试图带入学生视角,想象学生会问的问题,让 ChatGPT 写出了同样主题的文章——虽然并非完全相同,但也十分类似。
到这种程度,Darren Hick 觉得他的推测已经八九不离十了。他直接去质问了这名学生,对方也承认使用了 ChatGPT,因此被挂科。最终,Darren Hick 将这名本科生移交给了学校的学术院长处理。
教授:“我感到极度恐惧”
尽管这次 Darren Hick 成功抓到了这名学生,但正如他所说的那样:“这次成功是因为学生自己承认使用了 ChatGPT。如果她坚持否认,我的这些推测并不能作为足够的证据。”
更可怕的是,ChatGPT 作为一种 AI 语言模型,它才刚上线不到 1 个月,未来它会继续不断学习,变得越来越强大——而目前 Darren Hick 可以发现的那些蛛丝马迹,也可能在 ChatGPT 之后的升级优化中,变得更难发现。
“ChatGPT 太先进了,它肯定会流行起来的。这与让同学帮你写文章还不同,ChatGPT 是免费和即时的,我的学生用 ChatGPT 写那篇文章大约只需要 5 分钟。”Darren Hick 感慨:“我感到极度恐惧,同时在思考这对我的日常工作到底意味着什么。”
当前,不论是学校还是政府方面,都还没有任何有关这类事件的处理标准。因此 Darren Hick 认为,目前最好的办法可能只能是“即兴答辩”了:让有嫌疑的学生在没有准备的情况下回答导师的提问,以此判断他是否完全掌握了作业内容。