大模型之战的下半场或许已拉开序幕,而AI Agent成为了舞台上科技巨头们争抢的焦点。
8月3日,人工智能初创公司HyperWrite正式推出了AI Agent的应用,希望可以成为人类的“数字助手”。
作为HyperWrite的投资者,生成式AI初创企业Cohere联合创始人兼CEO Aidan Gomez在推文中表示:“我们将开始第一次看到真正的‘个人AI助理’。”
什么是Agent?在大模型语境下,可以理解成能自主理解、规划、执行复杂任务的系统。
AI Agents并非ChatGPT升级版,把它视作人类的“数字助理”更为合适。它不仅告诉你“如何做”,更会帮你去做。
在HyperWrite发布的介绍视频中可以看出,用户仅需给HyperWrite一个目的,剩下的这位数字助理都可帮忙完成。
比如,通过Chrome浏览器的控制程序,HyperWrite可以帮用户订机票、订网红餐厅、甚至自动帮用户订披萨外卖。
华尔街见闻也试用了HyperWrite,测试了一下这一助手是否可以帮忙预订机票。助手会向我解释每一步,这也就是所谓的思维过程提示——通过帮助LLM推理问题而提高性能。在需要个人信息的网站上代理会暂停:如登录页面或信用卡信息。
在接受媒体采访时,HyperWrite的联合创始人兼 CEO Matt Shumer指出,理想情况下Agent也能登录,但因安全和隐私方面的问题此功能暂时无法推出。
其实,Agent的运用在科幻电影中实现起来并不难,但在人工智能探索历程上,对Agent的开发已经持续了将近半个世纪。
早在20世纪80年代,计算机科学家就开始探索如何开发一个可以像人类一样交互的智能软件。 但苦于数据和算力限制,AI Agents缺乏必要的现实条件。
以AutoGPT和BabyAGI为代表的技术演示型项目,今年4月短暂的火了一阵,但那时市场认为离真正应用到业务中还有一段距离。
正如OpenAI联合创始人,特斯拉前人工智能总监Andrej Karpathy高呼:“AI Agent代表着一个疯狂的未来。”
现在,Hyperwrite的应用落地或意味着Agent的第二轮爆发已经在酝酿中,人类距离这个“疯狂的未来”或许也不选了。
Agent——AI应用新时代的起点?
怎样才算一个Agent应用?OpenAI华人科学家翁丽莲给出了最直观的公式:
Agent = 大模型+记忆+主动规划+工具使用
以AutoGPT为例,一个经典的案例是对大模型输入一个问题:找出一个投资机会。正常情况下,一个LLM是无法给出具体的操作的。
而AutoGPT的思路,是首先告诉LLM这个问题,LLM给出几个选择,然后会挑选一个方法。AutoGPT本身就可以根据选择的结果继续执行。
AutoGPT完成这些任务之后继续带上之前的记录发给LLM,继续询问新的解决方案。这就是一个简单的AI Agent的案例。
Shumer指出,HyperWrite正在开发自己的大语言模型“Agent-1”,计划在未来一个月内用它来驱动Agent。目前Agent是基于自主研发的模型与来自Cohere等投资者的开源和未开源大语言模型的组合。
Shumer认为,像Cohere或GPT-4这样的通用LLM的问题在于,它们的设计是为了完成各种任务,从写诗到解数学题,这使得它们训练进展缓慢且成本高。相反HyperWrite自主研发的模型专门侧重于浏览网页,这意味着与其他LLM相比要简单得多,因此速度更快且成本低。
3、4月份,Camel、AutoGPT、BabyAGI、西部世界小镇等多个AI Agents集中爆发,似乎让人们看到了应用落地的可能。
自3月份,Significant Gravitas将AutoGPT开源后,发布时间不到2个月,AutoGPT在GitHub上获得的star数量已经达到13万,成为史上star数量增长最快的开源项目。
Sam Altman曾在5月私下告诉部分开发者,OpenAI希望将ChatGPT打造成个人工作助手,并有知情人士指出,OpenAI一直在关注如何使用聊天机器人来创建自主的AI Agents,相关功能很有可能部署在ChatGPT助手中。
无独有偶,Meta也看到了AI Agents的机会。
早在4月,小扎就曾对投资者表示,Meta看到了“以有用且有意义的方式向数十亿人介绍AI Agents的机会”,但此时他并没有说明具体的应用。
而在6月一次与员工举行的全体会议上,小扎宣布了一系列处于不同开发阶段的技术,其中一个就是将带来具有不同个性和能力的AI Agents来提供帮助或娱乐,最初主要用于Messenger和WhatsApp。
AI Agents赛道的发令枪已经打响,谁将成为赛道的领军者。