单机游戏大全免费

游戏大全

当前位置:首页 > 互联网 IT业界 > 为训练AI,OpenAI等科技巨头花式淘数据

为训练AI,OpenAI等科技巨头花式淘数据

admin 互联网 IT业界 68热度

  来源:环球时报

  环球时报特约记者甄翔

  《纽约时报》6 日披露了科技公司训练人工智能的秘密——利用语音识别工具转录视频网站 YouTube 上的视频,形成对话文本数据,供其最新的 AI 学习。这是一条违反法律的“捷径”。

  报道称,早在 2021 年年底,OpenAI 就面临培训 AI 模型的数据源几乎陷入枯竭的境地。该公司铤而走险,在明知 YouTube 母公司谷歌禁止用工具提取该平台内容的情况下,转录了 100 多万条视频并生成 GPT-4 模型的学习材料,OpenAI 创始人之一布罗克曼也参与其中。讽刺的是,谷歌得知 OpenAI 的行为却并未制止,因为其也在提取 YouTube 平台内容训练 AI 模型。

  《纽约时报》援引消息人士的话表示,这可能侵犯视频版权,因为它们属于创作者。尽管如此,越来越多的科技公司冒着面临诉讼的风险也要“走捷径”。报道称,根据内部会议记录,Meta 公司商定从互联网上收集受版权保护的数据,因为与出版商、艺术家、音乐家和新闻行业就版权内容谈判太花时间。

  报道称,领先的 AI 模型需要从涵盖多达 3 万亿字的数字文本池中学习。有分析称,预计互联网上现有可供培训 AI 模型的数据最快到 2026 年就会耗尽。

  《纽约时报》援引内部人士的消息称,谷歌法律部门已经要求起草新的政策,扩大该公司对消费者数据的用途。Meta 的情况更严峻,其旗下脸书平台不是人们撰写文章的地方,可用数据不多。报道称,在一次讨论中,Meta 高管谈到在非洲聘请承包商来汇总各种小说和非小说的文本摘要。Meta 全球合作与内容副总裁格鲁丁表示:“唯一阻碍我们达到 ChatGPT 水平的因素就是数据量。”

更新时间 2024-05-02 02:16:00