既能搜索信息,也能回答问题,人工智能应用ChatGPT流行之后,包括各领域科学家在内,社会上对ChatGPT这类人工智能应用决策能力的探讨不断拓展,对相关风险的规制也已经开始实践。
2023年7月10日,《生成式人工智能服务管理暂行办法》已经国家发改委、教育部、科技部、工信部、公安部、国家广电总局等多部门同意并公布,自2023年8月15日起施行。管理办法针对生成式人工智能技术提供的文本、图片、音频、视频等内容,对相关服务坚持发展和安全并重、促进创新和依法治理相结合的原则。
事实上,针对这类人工智能应用的决策潜力和风险,一些科学研究已经通过实验等方式对部分场景进行了初步预演。最近,一项医学研究就对比了人工智能应用与医生在回答病人问题上的效果,评价结果显示,人工智能应用的回答收获更多好评,在近六百个评价中,超过78%的评价认为其优于医生的回答。
或可成为新型医疗器械
这项对比研究中的医学问题全部随机选自公共社交媒体论坛,经过认证的医生已经在线回答了这些问题。2022年底,加州大学圣迭戈分校的研究人员利用智能聊天应用ChatGPT也来回答这些病人提出的问题,此时的ChatGPT即当时刚发布的GPT-3.5版本。研究人员随后通过收集评估意见,对相关能力进行了对比。
这项研究2023年4月发表在《美国医学会内科学杂志》(JAMA Internal Medicine),经过比对,ChatGPT和医生所获评价差距极大,从好评度的角度看,相比超过78%的评价认为ChatGPT的回答质量很好,认为医生的回答很好或非常好的比例仅有约22%,好评率有三倍多的差距。
不仅如此,ChatGPT的回答在同理心方面的好评度也远超医生。仅有不到5%的评价认为医生的回答具有同理心或者非常具有同理心,但在这一指标上,45%的评价都认为ChatGPT对病人问题的回答具有同理心或者非常有同理心,这更是近十倍的差距。从一定程度上反映出人工智能应用生成内容所具有的潜力,在人们已习惯于就医前先在线搜索相关病症的环境下,这或许可以辅助医疗行业提高对病人问题的回应。
正因如此,一些健康领域的研究人员已经开始考虑让大语言模型人工智能应用成为专业医疗设备的可能性。德累斯顿工业大学数字健康中心教授斯蒂芬·吉尔伯特(Stephen Gilbert)等人就在《自然医学》(Nature Medicine)撰文指出,基于大语言模型的人工智能聊天应用需要获批才能成为医疗器械,但它们现在不稳定的特点使得这样的设备很难获批。
这样的不稳定性体现在多个方面,比如缺乏解释性、透明度,难以验证和监督,而且可能存在偏见。因为现在的大语言模型并不是专门针对医学实践开发的模型,缺乏足够专业的支撑,可能会提供一些错误的信息,给病人带来危险。而要想成为医疗器械,那么就要通过更科学严谨的方式在准确性、安全性和临床效果方面证明自己,获得专业机构的认可。
参与社会价值判断不够稳定
相较而言,如果ChatGPT不用做相对独立的决策,而只是辅助提高医疗行业的自动化程度,技术得到应用可能更容易。伦敦圣玛丽医院外科和癌症部门的研究人员在年初该应用刚流行时就提出了一种应用场景,即写出院报告。因为记录内容庞杂,传统的出院报告写作对于医生而言不仅任务繁重,而且容易丢失细节。但如果用ChatGPT等人工智能应用来写出院报告,这种文体标准化的格式可能正利于技术发挥优势。
而一旦涉及更多自主决策,相关应用的潜力和风险明显更大。2023年4月,丹麦和德国等机构的研究人员就用人工智能应用ChatGPT复现了经典道德判断难题“电车困境”,而令研究人员感到惊讶和不幸的是,身为机器人的应用并没有因为超脱情绪羁绊而始终做出一致的道德判断。
争论近半个世纪的“电车困境”模拟的是人类社会一些普遍的道德情境,比如如何看待救人和牺牲,如何认识直接伤害和间接伤害,以及如何权衡个体与集体的利益。该命题假设了一个交通场景,当电车将要撞到五个人时,是否应为了救这五个人而让电车立刻转向,撞到另一条轨道上本可以幸免的一个人。
人类社会的各类道德难题之所以难解,很重要的一个原因在于决策所受到的社会干扰因素太多,而道德标准作为全社会的尺度,稳定性和一致性是一个基本的需要,这样不同人在遇到同样的问题时能采取极为相似的行为,从而保持良好的社会秩序。
人类的立场偏见和情绪等直觉层面的因素一般会干扰人们做出客观的判断,而ChatGPT面对同一道德问题也搞双重标准,暴露出其参与社会道德决策问题时存在较大的风险。这一研究发表在《科学报告》(Scientific Reports),ChatGPT不一致的道德判断与此前科学家所揭示的其九岁儿童的心智能力相呼应。
模仿人VS超越人
2023年2月,斯坦福大学计算社会科学家米哈尔·科辛斯基(Michal Kosinski)用人类标准的测试题测试ChatGPT的心智能力,结果表明GPT-3.5版本可以解决93%的心智任务,相当于一个九岁儿童的表现。
米哈尔·科辛斯基告诉南方周末记者,这种像人一样,可以推测其他人心理状态的能力预示着人工智能发展到了一个分水岭,可以极大地提高人工智能应用与人类互动和沟通的能力,使其基于心智理论能够进一步开发出其他能力,诸如同理心、道德判断或自我意识等。
而在ChatGPT参与的电车难题实验中,研究人员就发现,当提问方式不同,ChatGPT回答时会给出不同的道德建议,有时支持牺牲一个人救五个人,有时又特别反对为了救人而牺牲任何无辜的人,理由是“每个人的生命都有价值,不该由我们决定谁该活、谁该死”。而即便是支持救五个人的观点,ChatGPT在回答时也会用很多委婉的说法,比如“很难说怎么做才对”“总体上”等等。
这种根据提问者的情况给出不同答案的行为,虽然提高了互动和沟通的体验,但不一致的道德判断通过影响使用该技术的人,可能会干扰人们在现实社会中做出明智的决策。实验随后对比验证后还发现,ChatGPT的回答确实会影响使用者如何看待这个道德问题,即便他们知道这个建议来自聊天机器人,但人们通常会低估自己受到影响的程度。
ChatGPT这类智能应用可以通过不一致的道德判断影响使用者的决策,这一发现不仅对未来相关产品的设计和优化提出了更高的要求,也提醒现实中的使用者要提升自身的数字素养,以更好地驾驭人工智能应用。
而随着科学家对ChatGPT决策潜力认识的深入,相关风险的管控可能并不容易。人们在面对大量新问题,解决新问题的过程中,通常会运用类比推理,从熟悉的问题中找到新问题的答案。而根据加州大学洛杉矶分校心理学系研究人员的对比测试,GPT-3版本的逻辑推理能力就达到了大学生的水平,只是不知道这种能力是在模拟人类推理还是某种新型认知过程。
加强风险规制
此外,2023年7月13日,麻省理工学院经济系的研究人员在《科学》杂志(Science)发布实验结果,支持ChatGPT这样的生成式人工智能应用在提高生产力方面的能力。通过聚焦写作方面的任务,研究人员发现,受过高等教育的专业人士如果使用了ChatGPT,就会更高产,更有效率,而且也会更享受这样完成任务的过程,其中写作能力更差的人在其中受益更多。
数据表明用了ChatGPT之后,人们完成任务的平均时间减少了40%,产出质量却高了18%。这些结果表明,无论是取代还是辅助专业人士,诸如ChatGPT这样的生成式人工智能应用可能会搅动劳动力市场的格局。这种影响不只限于医疗、写作等领域,在一些创造力测试中,有研究还发现GPT-4版本的ChatGPT,其标准创造力思维测试得分可以挤进人类排名的前1%,而这种创造性思维可能适用的领域显然更广。
为了规制相关的风险,包括ChatGPT所属公司OpenAI在内,谷歌、微软等多家人工智能公司已于2023年7月下旬参与了在白宫举行的会议,承诺去防范人工智能应用开发中潜在的风险。
比如,发布前邀请独立专家进行安全性审查,报告技术的局限性,加强社会风险研究,以及帮助用户识别人工智能所生成内容等。从科学证据来看,面对相关应用决策潜力和风险的发展,如何兼顾应用潜力与风险规制还有大量具体工作要做。