0°

讯飞星火:整体超越ChatGPT,医疗超越GPT4!一手实测在此

  五个月之后,在科大讯飞全球1024开发者节现场,刘庆峰如约而至兑现诺言,并给出新的Flag:

  2024年上半年对标GPT-4!

  不光讯飞最强星火大模型来袭,七大维度全面升级,尤其是多模态、代码生成以及复杂推理的能力,还能生成符合自己人设的AI助手。

  除此之外,还有科技文献大模型、医疗大模型以及同其他企业合作的12个行业大模型一并发布。

  以科技文献大模型为例,它可以一分钟就能整合18篇论文,生成一篇5页的综述报告。

  还能直接生成论文中提到的代码。

  医疗大模型也正式公开,化身每个人的健康助手,进行自查、用药指导以及检查/体检报告解读,并首发“讯飞晓医”APP及小程序。

  在底层基础设施上,讯飞华为再次联手,发布基于昇腾生态的“飞星一号”平台发布。

  正如刘庆峰所强调的那样:唯有自主可控,才有生生不息的未来。

  全面对标ChatGPT、医疗超越GPT-4

  既然如此,当初的Flag都实现了吗?

  首先就星火大模型V3.0本身,我们自然进行了第一手的实测。

  据介绍,此次七大能力持续提升,并且全面对标ChatGPT。尤其像中文能力客观评测上超越ChatGPT,在医疗、法律、教育等专业表现也格外突出,还有在代码项目级理解能力、小样本学习、多模态指令跟随与细节表达等能力有所提升。

  并且此次还新增了虚拟人格功能,它可以根据性格模拟、情绪理解、表达风格来形成一个初始人设,再结合特定知识学习、对话记忆学习,形成一个更个性化的AI人设。

  既然如此,那么第一波就来考验一下它的基本功。

  理解能力。

  比如一些只在中文语境下才能get到的网络梗,没想到星火与时俱进直接get。

  就连昨天的消息也都知道。

  接下来第二波进阶,也是最能考验大模型真正实力的代码生成能力。据介绍,目前讯飞星火代码能力已经超过ChatGPT,但略逊于GPT-4。

  既然如此,就来实际评测一下(提示词故意有点语病):

  你现在顶级程序员,请写出Resnet神经网络代码,并给出每一段代码的解释。

  首先两者都正确识别了问题,给出的代码表现基本一致。

  讯飞星火的回答直接分成了代码部分和解读部分。

  而GPT-4的回答,直接将代码部分拆分并解释,这样方便代码修正和学习。

  最后,再来看看新晋的看家本领——多模态生成能力。

  请根据「黄河远上白云间,一片孤城万仞山。」画一幅画。

  这一来考验对中文诗词的理解能力,二来考究的是大模型对空间感知的能力。

  △讯飞星火回答截图

  △GPT-4(部分回答截图)

  可以看到,讯飞星火绘制的画不仅理解来中文古诗词的内容,画风也是更具有古色古韵,而且巧妙地将黄河、白云和孤城在整个空间里组合在一起。

  而GPT-4则将孤城直接理解成了城市,画面也是更为现代感……

  大模型AI人设这块,这也是此次发布的重点更新。可以看到在「发现友伴」这一功能上有近20种AI人格可供选择,包括像马斯克、林黛玉、哪吒、于大爷、樱花木道、秦始皇等等。

「点点赞赏,手留余香」

    还没有人赞赏,快来当第一个赞赏的人吧!
0 条回复 A 作者 M 管理员
    所有的伟大,都源于一个勇敢的开始!
欢迎您,新朋友,感谢参与互动!欢迎您 {{author}},您在本站有{{commentsCount}}条评论