4月26日,在第四届联合国世界数据论坛期间,国际统计学会(ISI) 候任主席、密歇根大学统计系教授何旭铭接受澎湃新闻记者采访时表示,像ChatGPT这样的人工智能模型需要大量的数据,通过高效的算法得出结果,实际还是非常依赖数据本身的质量以及全面性的。当前,全世界关于数据问题的讨论越来越多,大家都逐渐意识到,要得到好的结果,必须在每一个环节都要做好,而且大家联手。
“我们要知道数据是怎么来的,如果数据只是从一个地方来,不具有更多代表性,就算把这些数据全部用上,所得到的结论不一定对所有人都合适。”何旭铭表示,数据的生产最好要具有代表性,如果在并不完全有代表性的情况下,也要弄清楚数据里面对哪些人采样比较多,哪些人采样比较少,在分析阶段要把这些情况进行调整,这也涉到数据设计和分析方法的更新与发展,多方面结合才能够保证最后得到的结论更加智能,更加准确。(澎湃新闻记者 周頔 秦盛)