去年年末,聊天机器人ChatGPT如同一阵旋风般席卷全网。而“文能提笔做文章,武能动手修BUG”的ChatGPT,更是几乎可以做任何事情,也使得AI文本生成仿佛第一次拥有了“灵魂”。得益于ChatGPT的优秀素质,在其上线短短5天后,Open AI首席执行官Sam Altman就在社交媒体披露其用户量已突破100万,也为AIGC再添了一把火。
作为Open AI背后的投资者,微软方面似乎也看上了ChatGPT。近日来自海外科技媒体The Information的消息显示,有知情人士透露,微软方面正准备在其必应(Bing)搜索引擎中加入OpenAI的人工智能语言模型ChatGPT,以吸引竞争对手谷歌搜索的用户。这也就意味着,ChatGPT对传统搜索引擎的冲击,或将从部分业内人士的推测变为现实。
这似乎也解释了为何在ChatGPT快速走红后,谷歌内部启动“Red Code”的原因。针对ChatGPT,谷歌内部包括研发、安全和信任等多个部门的团队被重新分配了工作任务,被要求协助开发新的AI技术原型和产品。没错,在搜索引擎会被ChatGPT取代这个问题上,谷歌也不复当初“ChatGPT还没到能取代搜索引擎”的自信。
ChatGPT与传统的搜索引擎有什么区别呢?事实上,通常意义上的搜索引擎,是指通过从互联网上提取各网站的信息,将其保存在自己建立的数据库中、并建立索引,用户发起检索请求后,系统检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户。在用户检索信息时,关键词无疑是最为有效的手段。而在外界看来,奠定百度搜索引擎的基础,无疑就是李彦宏的《超链文件检索系统和方法》,其核心是以关键字作为核心权重来决定“目标页面”的相关性和排序。
简而言之,在搜索引擎中搜索信息的大体流程,是用户输入关键词、搜索引擎在数据库筛选匹配关键词的结果,并为用户排序出关联度从高到低的链接。搜索引擎的本质,是基于用户输入内容向用户“推荐”结果,但打开哪一个内容还是需要用户自己来选择。从二十年前的雅虎、谷歌,到世纪之交的百度,再到后来的搜狗、360、DuckDuckGo,也都没有脱离这套运行模式。
对于用户而言,这二十余年里在搜索框输入关键词,等待搜索引擎展示网页链接,再根据自己的需求打开网页,几乎是一成不变的,或许这也是在日新月异的互联网世界中,为数不多的古典氛围了。然而这样的体验却是有缺憾的,因为彼时的计算机还不能完美理解用户的需求,所以需要用关键词来让计算机将用户的需求,划定在一个模糊的范围内。
相信许多朋友在通过搜索引擎寻求问题的答案时,往往会在一个主题下尝试不同的关键词,这样的效果显然称不上完美。而在满足用户信息需求方面,ChatGPT则提供了一个完全不同的体验,面对用户需求ChatGPT是直接给出答案,避免了用户的选择,并实现了从搜索问题到生产答案的一步到位式体验。
虽然对于部分用户来说,更希望将选择权握在自己手里,但抖音、TikTok在全球范围内的成功,已经证明了绝大多数用户是“懒惰”的。准确来说,大多数用户希望借助推荐算法来帮助自己检索、并筛选信息,并不反感互联网厂商为他们营造一个“信息茧房”。相比传统搜索引擎有输入、检索、整理、结果这四步,ChatGPT则直接跳过了中间的两个步骤,实现了从输入到结果这个新的搜索方式。
而谷歌对ChatGPT极为警惕的背后,其实是用户对于搜索引擎的期望就是即时满足信息需要,而这也是ChatGPT的核心优势。事实上,ChatGPT是OpenAI在2020年推出的自然语言识别模型GPT-3的衍生产品,并以从人类反馈中强化学习的方法训练这一模型,基于GANs(生成对抗网络)让ChatGPT在不断的调试、迭代中,生成与真实数据无二的结果。
其实ChatGPT并不能理解用户提问的意图,也不理解人类语言中的逻辑,只是对1750亿个训练文本中字词组合的出现率进行了统计,再按照用户输入的内容和统计出来的出现率排列字词,来给出看起来合理的回复。而“一本正经的胡说八道”,在ChatGPT上是十分常见的一件事。
如此庞大的数据自然能让ChatGPT变得“无所不能”,其实从本质上来说,ChatGPT之所以显得如此聪明,关键在于Open AI斥资1200万美元为其训练成本买单,它的底层运行逻辑依旧还是“基于统计的拼凑”。
ChatGPT其实并不像许多人渲染的那般智能,它同样需要基于输入的数据集来进行训练,这也是为什么最开始谷歌对于ChatGPT并不重视。原因其实也很简单,ChatGPT的成功靠的是Open AI比友商更愿意支付训练大型人工智能模型的成本。然而一旦ChatGPT与微软的Bing携手,情况就会发生变化。
ChatGPT在NLP(自然语言处理)上的能力,确实要比以往的文本生产AI有着大幅度的升级,这也确保了它不会出现答非所问的问题,而微软Bing搜索引擎的加入也将会为其解决最大的难题,那就是数据集。传统搜索引擎擅长的收集海量信息,搭配ChatGPT从人类行为中学习的能力,必然就会迸发出1+1>2的效果。
当然,Bing与ChatGPT的合作也有一个问题,那就是如何筛选出有价值的内容来“喂养”ChatGPT。要知道直到目前为止,数据的标记和筛选工作中,人工的比例都相当高,如果微软或Open AI能够将数据标记和筛选的过程完全自动化,或许通用搜索引擎的时代就真的要落幕了。