五个月之后,在科大讯飞全球1024开发者节现场,刘庆峰如约而至兑现诺言,并给出新的Flag:
2024年上半年对标GPT-4!
不光讯飞最强星火大模型来袭,七大维度全面升级,尤其是多模态、代码生成以及复杂推理的能力,还能生成符合自己人设的AI助手。
除此之外,还有科技文献大模型、医疗大模型以及同其他企业合作的12个行业大模型一并发布。
以科技文献大模型为例,它可以一分钟就能整合18篇论文,生成一篇5页的综述报告。
还能直接生成论文中提到的代码。
医疗大模型也正式公开,化身每个人的健康助手,进行自查、用药指导以及检查/体检报告解读,并首发“讯飞晓医”APP及小程序。
在底层基础设施上,讯飞华为再次联手,发布基于昇腾生态的“飞星一号”平台发布。
正如刘庆峰所强调的那样:唯有自主可控,才有生生不息的未来。
全面对标ChatGPT、医疗超越GPT-4
既然如此,当初的Flag都实现了吗?
首先就星火大模型V3.0本身,我们自然进行了第一手的实测。
据介绍,此次七大能力持续提升,并且全面对标ChatGPT。尤其像中文能力客观评测上超越ChatGPT,在医疗、法律、教育等专业表现也格外突出,还有在代码项目级理解能力、小样本学习、多模态指令跟随与细节表达等能力有所提升。
并且此次还新增了虚拟人格功能,它可以根据性格模拟、情绪理解、表达风格来形成一个初始人设,再结合特定知识学习、对话记忆学习,形成一个更个性化的AI人设。
既然如此,那么第一波就来考验一下它的基本功。
理解能力。
比如一些只在中文语境下才能get到的网络梗,没想到星火与时俱进直接get。
就连昨天的消息也都知道。
接下来第二波进阶,也是最能考验大模型真正实力的代码生成能力。据介绍,目前讯飞星火代码能力已经超过ChatGPT,但略逊于GPT-4。
既然如此,就来实际评测一下(提示词故意有点语病):
你现在顶级程序员,请写出Resnet神经网络代码,并给出每一段代码的解释。
首先两者都正确识别了问题,给出的代码表现基本一致。
讯飞星火的回答直接分成了代码部分和解读部分。
而GPT-4的回答,直接将代码部分拆分并解释,这样方便代码修正和学习。
最后,再来看看新晋的看家本领——多模态生成能力。
请根据「黄河远上白云间,一片孤城万仞山。」画一幅画。
这一来考验对中文诗词的理解能力,二来考究的是大模型对空间感知的能力。
△讯飞星火回答截图
△GPT-4(部分回答截图)
可以看到,讯飞星火绘制的画不仅理解来中文古诗词的内容,画风也是更具有古色古韵,而且巧妙地将黄河、白云和孤城在整个空间里组合在一起。
而GPT-4则将孤城直接理解成了城市,画面也是更为现代感……
大模型AI人设这块,这也是此次发布的重点更新。可以看到在「发现友伴」这一功能上有近20种AI人格可供选择,包括像马斯克、林黛玉、哪吒、于大爷、樱花木道、秦始皇等等。