新闻出版商与AI科技企业签下合约后,AI科技企业需为获取版权许可信息付出相应代价。《The Information》透露,OpenAI每年斥资100万至500万美元购买版权文本,用于AI模型训练。此次教训揭示出AI科技企业花钱购买版权资料的第一次公开行为。早前有消息称,苹果同样有意与传媒企业合作,涉及最少支付5000万美元的数据费用。
这些费用远远超过之前类似非AI许可协议中的水平。Facebook发布新闻目录选择功能时,据说其年均支出高达300万美元购买新闻故事、标题及预览。然而,总的付费金额能否达到类似谷歌2020年宣布的10亿美元级别,仍有待观察。值得注意的是,面对新的法律要求,谷歌近期答应每年向加拿大出版商支付1亿美元,交换其文章链接。
如今,大部分语言模型的训练数据直接源于互联网。虽然部分AI模型未公开披露数据来源,不过常可得知他们使用了何种数据集或者网络抓取程序。训练数据集定价各异,受供应商、规模以及内容影响。比如,LAION这种数据集属于开源免费资源,广泛应用于Stable Diffusion等模型下。虽然AI开发者常用网络爬虫技术获取相关数据,但要注意的是,对这类数据仍需审慎审查、标注并清理后方可使用,这无疑会提高运营成本。
然而,这种做法正遭遇诸多困局。OpenAI旗下的GPT爬虫已被多家公司锁定(包括维亚康姆哥伦比亚广播集团控股的《纽约时报》和《The Verge》),数据获取层面遭受严峻挑战。众人质疑,利用他人数据进行模型训练的行为涉嫌侵犯版权。《纽约时报》等媒体甚至对OpenAI和微软发起侵权诉讼,指控ChatGPT等模型几乎能复刻出他们的作品内容。
与新闻机构建立合作伙伴关系能避开此类难题,这在近年来已经愈发普遍。诸如Axel Springer(政治新闻网站Politico和商业新闻网站Business Insider之母)和美联社等知名出版商已与谷歌签署分销协议,授权其以谷歌提出GPT-4为模型、研发新闻采编技术。事实上,OpenAI和谷歌并非唯二寻求与新闻机构合作的AI开发商。
有传闻称,谷歌向《纽约时报》、《华尔街日报》以及《华盛顿邮报》的高层展示过一款名为Genesis的声音转换型AI工具,能将事实变成新闻报道。对此,部分媒体已经开始在新闻编辑部采用生成式AI工具,但结果不尽相同。