讯飞星火：整体超越ChatGPT，医疗超越GPT4！一手实测在此

　　五个月之后，在科大讯飞全球1024开发者节现场，刘庆峰如约而至兑现诺言，并给出新的Flag：

　　2024年上半年对标GPT-4!

　　不光讯飞最强星火大模型来袭，七大维度全面升级，尤其是多模态、代码生成以及复杂推理的能力，还能生成符合自己人设的AI助手。

　　除此之外，还有科技文献大模型、医疗大模型以及同其他企业合作的12个行业大模型一并发布。

　　以科技文献大模型为例，它可以一分钟就能整合18篇论文，生成一篇5页的综述报告。

　　还能直接生成论文中提到的代码。

　　医疗大模型也正式公开，化身每个人的健康助手，进行自查、用药指导以及检查/体检报告解读，并首发“讯飞晓医”APP及小程序。

　　在底层基础设施上，讯飞华为再次联手，发布基于昇腾生态的“飞星一号”平台发布。

　　正如刘庆峰所强调的那样：唯有自主可控，才有生生不息的未来。

　　全面对标ChatGPT、医疗超越GPT-4

　　既然如此，当初的Flag都实现了吗?

　　首先就星火大模型V3.0本身，我们自然进行了第一手的实测。

　　据介绍，此次七大能力持续提升，并且全面对标ChatGPT。尤其像中文能力客观评测上超越ChatGPT，在医疗、法律、教育等专业表现也格外突出，还有在代码项目级理解能力、小样本学习、多模态指令跟随与细节表达等能力有所提升。

　　并且此次还新增了虚拟人格功能，它可以根据性格模拟、情绪理解、表达风格来形成一个初始人设，再结合特定知识学习、对话记忆学习，形成一个更个性化的AI人设。

　　既然如此，那么第一波就来考验一下它的基本功。

　　理解能力。

　　比如一些只在中文语境下才能get到的网络梗，没想到星火与时俱进直接get。

　　就连昨天的消息也都知道。

　　接下来第二波进阶，也是最能考验大模型真正实力的代码生成能力。据介绍，目前讯飞星火代码能力已经超过ChatGPT，但略逊于GPT-4。

　　既然如此，就来实际评测一下(提示词故意有点语病)：

　　你现在顶级程序员，请写出Resnet神经网络代码，并给出每一段代码的解释。

　　首先两者都正确识别了问题，给出的代码表现基本一致。

　　讯飞星火的回答直接分成了代码部分和解读部分。

　　而GPT-4的回答，直接将代码部分拆分并解释，这样方便代码修正和学习。

　　最后，再来看看新晋的看家本领——多模态生成能力。

　　请根据「黄河远上白云间，一片孤城万仞山。」画一幅画。

　　这一来考验对中文诗词的理解能力，二来考究的是大模型对空间感知的能力。

　　△讯飞星火回答截图

　　△GPT-4(部分回答截图)

　　可以看到，讯飞星火绘制的画不仅理解来中文古诗词的内容，画风也是更具有古色古韵，而且巧妙地将黄河、白云和孤城在整个空间里组合在一起。

　　而GPT-4则将孤城直接理解成了城市，画面也是更为现代感……

　　大模型AI人设这块，这也是此次发布的重点更新。可以看到在「发现友伴」这一功能上有近20种AI人格可供选择，包括像马斯克、林黛玉、哪吒、于大爷、樱花木道、秦始皇等等。