Reddit 打算屏蔽 Internet Archive(互联网档案馆),原因很简单:不希望 AI 抓取他们的内容

如果你指望互联网档案馆来记录 Reddit 帖子,那么这个梦想就要破灭了。

Reddit 未来的动作是:主页仍将保留访问权限,但其余的都是禁止进入的。

原因很简单—— Reddit 不希望 AI 抓取他们的内容。

reddit 的社区 UGC 内容对于 AI 而言是座数据金矿,所以想要数据?得加钱。那些没有达成合作的 AI 便迂回着去爬取 Internet Archive 中 Wayback Machine 抓取的数据,这才有了 Reddit 不得不屏蔽 Internet Archive 的戏码。

此前,Reddit 就与 Google、 OpenAI 达成了过 AI 协议,由后者支付费用来获得数据抓取权限。同时对白嫖者,Reddit 也诉诸法律动作。它在 6 月份起诉了 Anthropic,声称即使在 Anthropic 表示不再抓取之后,Anthropic 仍在从 Reddit 上抓取内容。[source:the verge]