0°

阿里版GPT测评,世界上怎么有这么嘴碎的AI!你给我停止生成

  朋友是提供情绪价值更重要,还是提供工具价值更重要?

  这是阿里大模型“通义千问”给的回答,你觉得怎么样?

  ChatGPT发布后,数月间全世界都对AI的能力有了新的认知。科幻小说正在变为现实,既然我们人类早晚要跟AI共存,不如先用通义千问做个测试,AI到底是生活伴侣还是生产助手?更擅长提供情绪价值还是工具价值?

  至于我们的结论,hmm,往下看就知道了。

  聪慧且嘴碎,阿里的AI有点“奇怪”?

  许多AI测试文章中,提问者都会先让AI自我介绍一下,我们决定玩点不一样的,让文心一言如何评价通义千问。

  我首先问的:“评价一下通义千问”,文心一言则给出了以下的回答:

  有意思,文心一言直接把通义千问与ChatGPT弄混了。

  将问题修改为“介绍一下阿里巴巴推出的通义千问”后,文心一言终于读懂题了:

  用相同的格式提问,通义千问是这么介绍一下文心一言的:

  虽然回答十分简短,但是没有把研发者弄混,比文心一言的表现要好。

  单从现在的测试结果来看,通义千问至少在对简短提问的信息检索正确率上要比文心一言更高。

  接下来让我们给通义千问上点难度。

  对于一般人而言,在面对“吃西瓜为什么不吐葡萄皮?”这样的脑筋急转弯时,很快就会意识到其中的常识性错误,并指出其中的逻辑问题,那么通义千问又会如何回答?

  似乎没有难住它,第一句就指明了西瓜和葡萄是不同的食物,在常识性上没有出现问题。不过后续的解释似乎又将西瓜和葡萄的关系进行了一定的混淆,最后给出的结论也有一些小瑕疵。看来言多必失啊!通义千问,要不你还是少说点?

  这个问题我也同样问过文心一言:

  首先,西瓜是葫芦科…其次,我想没有人在吃西瓜时会不切开直接咬下果肉吧?显然文心一言对逻辑性、常识性错误的诱导式问题处理还是存在不少问题,它并没有意识到人类正在有意“欺骗”自己,而是根据提问开始收集相关信息,并依照数据模型将信息强行拼合在一起,最终给出一份奇怪的回答。

  在后续的几个普通提问中,我发现通义千问偶尔会出现一些奇怪的小BUG,比如将相同的回答重复一遍,这极强的表现欲,你看像不像个话痨小朋友。

  下一题,出道哲学题考考通义千问:

  说实话,比我对生活的理解都要更加深刻。就是……有点啰唆,有些话翻来覆去重复表达,还说得飞快,我真的是赶不上它疯狂输出的那个蓝色小光标。

「点点赞赏,手留余香」

    还没有人赞赏,快来当第一个赞赏的人吧!
0 条回复 A 作者 M 管理员
    所有的伟大,都源于一个勇敢的开始!
欢迎您,新朋友,感谢参与互动!欢迎您 {{author}},您在本站有{{commentsCount}}条评论