马斯克开源自家顶级大模型压力给到OpenAI

　　Grok-1为当前参数量最大的开源大语言模型，拥有3140亿参数;它允许用户自由地使用、修改和分发软件，无论是个人还是商业用途;由于Grok-1是一个规模较大的模型，测试人员需要足够的硬件配置。

　　似乎是为了表明自己始终坚持对AI模型开源，马斯克做出了与阿尔特曼全然不同的选择。3月17日，马斯克宣布开源Grok-1，这使得Grok-1成为当前参数量最大的开源大语言模型，拥有3140亿参数，远超OpenAI GPT-3.5的1750亿。

　　有意思的是，Grok-1宣布开源的封面图为Midjourney生成，可谓“AI helps AI”。

　　一直吐槽OpenAI不open的马斯克，自然要在社交平台上含沙射影一番，“我们想了解更多OpenAI的开放部分。”

　　Grok-1遵照Apache 2.0协议开放模型权重和架构。这意味着它允许用户自由地使用、修改和分发软件，无论是个人还是商业用途。这种开放性鼓励了更广泛的研究和应用开发。项目发布至今，已经在GitHub上揽获6.5k星标，热度还在持续增加。

　　项目说明中明确强调，由于Grok-1是一个规模较大(314B参数)的模型，需要有足够GPU内存的机器才能使用示例代码测试模型。网友表示这可能需要一台拥有628 GB GPU内存的机器。

　　此外，该存储库中MoE层的实现效率并不高，之所以选择该实现是为了避免需要自定义内核来验证模型的正确性。

　　目前已开源的热门大模型包括Meta的Llama2、法国的Mistral等。通常来说，发布开源模型有助于社区展开大规模的测试和反馈，意味着模型本身的迭代速度也能加快。

　　Grok-1是一个混合专家(Mixture-of-Experts，MOE)大模型，由马斯克旗下的AI创企xAI在过去4个月里开发。回顾该模型的开发历程：

　　在宣布成立xAI之后，相关研究人员首先训练了一个330亿参数的原型语言模型(Grok-0)，这个模型在标准语言模型测试基准上接近LLaMA2(70B)的能力，但使用了更少的训练资源;

　　之后，研究人员对模型的推理和编码能力进行了重大改进，最终开发出了Grok-1并于2023年11月发布，这是一款功能更为强大的SOTA语言模型，在HumanEval编码任务中达到了63.2%的成绩，在MMLU中达到了73%，超过了其计算类中的所有其他模型，包括ChatGPT-3.5和Inflection-1。

　　▌与其他大模型相比，Grok-1的优势在哪呢?

　　xAI特别强调，Grok-1是他们自己从头训练的大模型，即从2023年10月开始使用自定义训练堆栈在JAX和Rust上训练，没有针对特定任务(如对话)进行微调;

　　Grok-1的一个独特而基本的优势是，它可以通过X平台实时了解世界，这使得它能够回答被大多数其他AI系统拒绝的辛辣问题。Grok-1发布版本所使用的训练数据来自截至2023年第三季度的互联网数据和xAI的AI训练师提供的数据;

　　3140亿参数的Mixture-of-Experts模型，其对于每个token，活跃权重比例为25%，这一庞大的参数量为其提供了强大的语言理解和生成能力。

　　xAI此前介绍，Grok-1将作为Grok背后的引擎，用于自然语言处理任务，包括问答、信息检索、创意写作和编码辅助。未来，长上下文的理解与检索、多模态能力都是该模型将会探索的方向之一。

「点点赞赏，手留余香」

还没有人赞赏，快来当第一个赞赏的人吧！

chatgpt资讯

ChatGPT中文官网 @ chatgpt使用教程 2024/3/25

马斯克开源自家顶级大模型压力给到OpenAI

　　Grok-1为当前参数量最大的开源大语言模型，拥有3140亿参数;它允许用户自由地使用、修改和分发软件，无论是个人还是商业用途;由于Grok-1是一个规模较大的模型，测试人员需要足够的硬件配置。　　似乎是为了表明自己始终坚持对AI模型开源，马斯克做出了与阿尔特曼全然不同的选择。3月17日，马斯克宣布开源Grok-1，这使得Grok-1成为当前参数量最大的开源大语言模型，拥有3140亿参数，远超OpenAI GPT-3.5的1750亿。　　有意思的是，Grok-1宣布开源的封面图为Midjourney生成，可谓“AI helps AI”。　　一直吐槽OpenAI不open的马斯克，自然要在社交平台上含沙射影一番，“我们想了解更多OpenAI的开放部分。” 　　Grok-1遵照Apache 2.0协议开放模型权重和架构。这意味着它允许用户自由地使用、修改和分发软件，无论是个人还是商业用途。这种开放性鼓励了更广泛的研究和应用开发。项目发布至今，已经在GitHub上揽获6.5k星标，热度还在持续增加。　　项目说明中明确强调，由于Grok-1是一个规模较大(314B参数)的模型，需要有足够GPU内存的机器才能使用示例代码测试模型。网友表示这可能需要一台拥有628 GB GPU内存的机器。　　此外，该存储库中MoE层的实现效率并不高，之所以选择该实现是为了避免需要自定义内核来验证模型的正确性。　　目前已开源的热门大模型包括Meta的Llama2、法国的Mistral等。通常来说，发布开源模型有助于社区展开大规模的测试和反馈，意味着模型本身的迭代速度也能加快。　　Grok-1是一个混合专家(Mixture-of-Experts，MOE)大模型，由马斯克旗下的AI创企xAI在过去4个月里开发。回顾该模型的开发历程：　　在宣布成立xAI之后，相关研究人员首先训练了一个330亿参数的原型语言模型(Grok-0)，这个模型在标准语言模型测试基准上接近LLaMA2(70B)的能力，但使用了更少的训练资源; 　　之后，研究人员对模型的推理和编码能力进行了重大改进，最终开发出了Grok-1并于2023年11月发布，这是一款功能更为强大的SOTA语言模型，在HumanEval编码任务中达到了63.2%的成绩，在MMLU中达到了73%，超过了其计算类中的所有其他模型，包括ChatGPT-3.5和Inflection-1。　　▌与其他大模型相比，Grok-1的优势在哪呢? 　　xAI特别强调，Grok-1是他们自己从头训练的大模型，即从2023年10月开始使用自定义训练堆栈在JAX和Rust上训练，没有针对特定任务(如对话)进行微调; 　　Grok-1的一个独特而基本的优势是，它可以通过X平台实时了解世界，这使得它能够回答被大多数其他AI系统拒绝的辛辣问题。Grok-1发布版本所使用的训练数据来自截至2023年第三季度的互联网数据和xAI的AI训练师提供的数据; 　　3140亿参数的Mixture-of-Experts模型，其对于每个token，活跃权重比例为25%，这一庞大的参数量为其提供了强大的语言理解和生成能力。　　xAI此前介绍，Grok-1将作为Grok背后的引擎，用于自然语言处理任务，包括问答、信息检索、创意写作和编码辅助。未来，长上下文的理解与检索、多模态能力都是该模型将会探索的方向之一。 0 收藏

扫描二维码继续阅读

给ChatGPT中文官网打赏

2元

5元

10元

20元

50元

自定义

^¥0

您的当前余额：¥0

余额支付

马斯克开源自家顶级大模型 压力给到OpenAI

马斯克开源自家顶级大模型 压力给到OpenAI

马斯克开源自家顶级大模型压力给到OpenAI

马斯克开源自家顶级大模型压力给到OpenAI