ChatGPT在学校里到底能不能用,该怎么用?
针对这个问题教育界,监管部门,学生各执一词。
某些高校部分专业,因为找不到防止学生采用ChatGPT作弊的方式,直接把执行多年的Take Home考试给禁了,所有考试回到一张纸一支笔的年代。
为了更好地研究ChatGPT对于课堂教学的影响,纽约大学的研究人员针对不同国家的学生和老师,对他们的课堂表现和使用ChatGPT的意愿进行了非常详细的调查研究,调查结果登上Nature。
研究人员发现,在9个专业中,ChatGPT的课堂表现超过普通学生。
教授认为,在学校中使用ChatGPT,能让自己更好地教学。但是对于让学生使用ChatGPT学习,完成作业,却非常不支持,会将使用ChatGPT的学生视为作弊或者抄袭。
研究人员发现,在9个专业中,ChatGPT的课堂表现超过普通学生。
教授认为,在学校中使用ChatGPT,能让自己更好地教学,但是对于让学生使用ChatGPT学习,完成作业,却非常不支持,会将使用ChatGPT的学生视为作弊或者抄袭。
研究人员通过将ChatGPT与来自8个学科的32门大学水平课程的学生的表现进行比较,来研究ChatGPT作为抄袭工具的潜力。
此外,研究人员评估了专门用于检测ChatGPT生成文本的现有算法,并评估了可用于逃避此类算法的混淆攻击的有效性。
为了更好地了解学生和教育工作者对ChatGPT的效用以及使用ChatGPT所产生的道德和规范问题的看法,研究人员调查了来自五个国家的参与者:巴西、印度、日本、英国和美国。
此外,研究人员对作者所在机构的151名本科生和60名教授进行了更广泛的调查,以探索不同学科对ChatGPT的看法差异。
研究人员发现,ChatGPT的表现与32门课程中的9门课程的学生相当,甚至更好。
此外,研究人员发现当前的检测算法倾向于将人类答案错误地分类为人工智能生成的答案,并将ChatGPT答案错误地分类为人工生成的答案。
更糟糕的是,混淆攻击使这些算法无效,无法检测95%的ChatGPT答案。最后,在学生和教育工作者之间似乎都有一个共识,即他们打算在他们的作业中使用ChatGPT,而将其视为剽窃。
这两者之间的内在冲突给教育机构提出了紧迫的挑战,要求他们制定与生成式人工智能相关的适当的学术诚信政策,特别是与ChatGPT相关的政策。
研究人员的研究结果提供了及时的见解,可以指导围绕生成式人工智能时代教育改革的政策讨论。
论文
研究人员从探索生成式人工智能解决大学水平考试和家庭作业的当前能力开始。为此,研究人员联系了纽约大学阿布扎比分校(New York University Abu Dhabi)的教职员工,请他们提供他们在该大学教授的课程中的10个问题,以及每个问题随机抽取的三名学生的答案。
此外,对于每门课程,ChatGPT用于生成10个问题中的每个问题的三个不同答案。
然后,学生和ChatGPT的答案按随机顺序汇编成一份文件,标记为「提交1」到「提交6」。
然后,每一份提交的材料都由三个不同的评分员打分,这些评分员是由教过这门课的教员招募的,并补充表1以了解评级间的信度。虽然大多数课程的评分者间信度大于0.6,但32门课程中有6门没有达到这个阈值。
这六门课程中有四门是基于论文的,本质上是主观的,这可以解释这种差异。
然而,剩下的两门课程(以人为中心的数据科学和面向对象的编程)不是。尽管如此,如果研究人员从分析中排除这两种过程,会看到质量上相似的结果。
计算结果见上图a。除了数学和经济学,每个学科ChatGPT成绩至少有一门课程的成绩与学生相当,甚至超过学生。
这些课程是:「数据结构」,「公共政策概论」,「定量合成生物学」,「网络面向对象的程序设计」,「土木工程材料的结构和性能」,「生物心理学」,「气候变化」,「管理和组织」。
作为稳定性验证,研究人员标准化了每门课程的每个评分者给出的分数,从而能够考量不同年级的影响,同样还是发现ChatGPT的表现与上述九门课程的学生相当,甚至更好。
在分析了ChatGPT在不同课程上的表现之后,研究人员现在对其表现如何随不同的认知和知识水平而变化进行探索性分析。
为此,研究人员要求参与调查的教师详细说明他们的每个问题在安德森和克拉斯沃尔分类法的「知识」和「认知过程」维度中的位置。关于构成每个维度的级别的描述,请参见下表。分析结果下图b所示。
有趣的是,在要求高水平知识和认知过程的问题上,与要求中级水平的问题相比,ChatGPT和学生之间的表现差距要小得多。
ChatGPT在需要创造力的问题上的表现——认知过程维度的最高水平——平均得分为7.5分,而学生的平均得分为7.9分。