钛媒体 App 7 月 17 日消息,据媒体消息,包括苹果、英伟达、Salesforce 和 Anthrophic 在内的一些大型科技公司,被曝在训练 AI 模型时使用了来自谷歌旗下视频网站 YouTube 的未授权数据。这些公司使用了一个由第三方提供的数据集,其中包含从 YouTube 上抓取的大量视频字幕文本,违反了 YouTube 禁止从平台上未经许可抓取内容的规定。报道指出,这些科技公司在训练 AI 模型时都使用了一个名为 "YouTube Subtitles(YouTube 字幕)" 的数据集,大小为 5.7GB,包含 4.89 亿个单词,来自 Youtube 上超过 4.8 万个频道中的 17.35 万个视频。该数据集由视频字幕的纯文本组成,包括视频博主上传的部分和 Youtube 自动转录的文本,除了英语外,通常还附带日语、德语和阿拉伯语等语言的翻译。
登录后才可以发布评论哦
打开小程序可以发布评论哦