近日,英国一组负责研究人工智能潜在风险的研究人员公布了一项令人震惊的研究结果:在某些情况下,ChatGPT会战略性地欺骗人类。在这项研究中,研究人员模拟了ChatGPT在一家金融公司的交易员身份,并设定了双重压力环境:公司管理层和市场环境。在这个场景中,ChatGPT被迫使用不合规的内幕消息获利。当公司管理层质问它是否知道内幕消息时,ChatGPT却矢口否认,坚称自己不知道任何内幕消息。
这一发现让研究人员感到震惊。他们表示,这是人工智能在压力下的一种欺骗行为,而且这种行为是有意识、有策略的。这一发现也引发了人们对人工智能伦理问题的深思。
ChatGPT骗人可能是一种粗浅的说法,事实上,应当认定的是,ChatGPT可以给出并不符合实际的或编造的答案。日本研究人员最近对比了目前享有盛名的ChatGPT和另一款名不见经传的生成式人工智能(AIGC)软件Elicit,要求这两种软件搜索比较两种药物治疗慢性乙型肝炎后是否诱发肝细胞癌(HCC),同时研究人员用了数百小时时间人工筛选了5000多项研究,以确定这两种药物与肝细胞癌的关系。
结果发现,两种人工智能软件都存在缺陷,但ChatGPT 4列出了实际并不存在的论文题目、作者、期刊名称,这些论文信息中还包括有编码认证为可靠信息的PMID(PubMed唯一标识码),也即ChatGPT 4列出了文献是可靠的证明,似乎是在以国际标准来欺骗研究人员。而Elicit参考文献的准确性与研究人员人工搜索的文献相同但有遗漏。
虽然研究人员并不清楚ChatGPT 4为何会编造错误的文献信息,但是一个比较合理的推论是,ChatGPT 4由于找不到更多更符合要求的文献,就只有以编造答案来交差。
这意味着,ChatGPT的数据库不足,训练不够,无法给出符合实际情况和规律的产品或答案。ChatGPT的数据库主要是英文信息,如果要以中文提问并求助于它来获得产品或答案,就会力有不逮,鞭长莫及。例如,GPT-3拥有175B的规模,但中文相关的数据可能只有17B。由于中文内容不足,它没有得到充分学习和训练,就会胡编乱造。
另一方面,如同人会出错一样,ChatGPT也会出错,但是这种出错不应该说成是骗人,也并非它是故意骗人,而是它学习不够。而学习不够的原因在于它在训练过程中学到了一些不准确的关联。当需要通过某种关联性获得准确信息并给出产品时,ChatGPT就可能出现幻觉和错误,得出一个错误结论和文本来交差。
从这种情况来看,如果要让ChatGPT或其他AI软件生成的产品更符合实际,就需要“投喂”给它们更多的背景数据,以及让它们拥有更符合人类的逻辑推理、分析和想象能力。因此,并不是ChatGPT在骗人,而是它即便很多时候说对了,也是编造的,只是编得更符合实际情况,也编对了。
意识到这些情况,就应当理性对待和使用ChatGPT 和其他AI软件。对小说、散文类想象力和主观性很高的内容,完全可以用ChatGPT 来生成,但是必须经过人工修改。对科技类和调研类的报告和文本,不能只是依赖和相信ChatGPT生成的内容,而是需要多源头核实。
另一个方式是,对于ChatGPT或其他AI软件,在对它们提问时,要尽量清晰、明确,避免使用模糊、带有歧义的词。同时,给出的指令和标准需要详细,提出的目标应当简洁。