OPEN AI为获取版权信息付出高昂代价

　　新闻出版商与AI科技企业签下合约后，AI科技企业需为获取版权许可信息付出相应代价。《The Information》透露，OpenAI每年斥资100万至500万美元购买版权文本，用于AI模型训练。此次教训揭示出AI科技企业花钱购买版权资料的第一次公开行为。早前有消息称，苹果同样有意与传媒企业合作，涉及最少支付5000万美元的数据费用。

　　这些费用远远超过之前类似非AI许可协议中的水平。Facebook发布新闻目录选择功能时，据说其年均支出高达300万美元购买新闻故事、标题及预览。然而，总的付费金额能否达到类似谷歌2020年宣布的10亿美元级别，仍有待观察。值得注意的是，面对新的法律要求，谷歌近期答应每年向加拿大出版商支付1亿美元，交换其文章链接。

　　如今，大部分语言模型的训练数据直接源于互联网。虽然部分AI模型未公开披露数据来源，不过常可得知他们使用了何种数据集或者网络抓取程序。训练数据集定价各异，受供应商、规模以及内容影响。比如，LAION这种数据集属于开源免费资源，广泛应用于Stable Diffusion等模型下。虽然AI开发者常用网络爬虫技术获取相关数据，但要注意的是，对这类数据仍需审慎审查、标注并清理后方可使用，这无疑会提高运营成本。

　　然而，这种做法正遭遇诸多困局。OpenAI旗下的GPT爬虫已被多家公司锁定(包括维亚康姆哥伦比亚广播集团控股的《纽约时报》和《The Verge》)，数据获取层面遭受严峻挑战。众人质疑，利用他人数据进行模型训练的行为涉嫌侵犯版权。《纽约时报》等媒体甚至对OpenAI和微软发起侵权诉讼，指控ChatGPT等模型几乎能复刻出他们的作品内容。

　　与新闻机构建立合作伙伴关系能避开此类难题，这在近年来已经愈发普遍。诸如Axel Springer(政治新闻网站Politico和商业新闻网站Business Insider之母)和美联社等知名出版商已与谷歌签署分销协议，授权其以谷歌提出GPT-4为模型、研发新闻采编技术。事实上，OpenAI和谷歌并非唯二寻求与新闻机构合作的AI开发商。

　　有传闻称，谷歌向《纽约时报》、《华尔街日报》以及《华盛顿邮报》的高层展示过一款名为Genesis的声音转换型AI工具，能将事实变成新闻报道。对此，部分媒体已经开始在新闻编辑部采用生成式AI工具，但结果不尽相同。