小G助手:恶意爬虫对科学数据库的影响,AI训练数据争夺战加剧

小G助手1周前番茄助手教程18

为了训练大模型,恶意爬虫挤爆了各类科学数据库?

今年2月,收藏了近300万张不同物种图片的在线图像库DiscoverLife的日点击数量开始飙增至数百万次。【图1】

罪魁祸首很明显:恶意爬虫。

随着AI的崛起,此类恶意爬虫的数量激增,从网站上“抓取”大量内容,很多网站管理者怀疑:它们正在为训练聊天机器人和图像生成器等AI工具收集数据。小G助手认为,这种猜测有其背后的原因:以前大家觉得训练大模型需要庞大的计算能力,但现在发现,用少量资源也能开发出很厉害的AI工具。

小G助手:恶意爬虫对科学数据库的影响,AI训练数据争夺战加剧

这个突破直接导致了大规模的数据抓取热潮,大量爬虫开始疯狂搜集模型所需的训练数据。其中,学术网站成了主要目标,因为它们的内容对AI开发者来说非常有价值。旧金山网络服务商Cloudflare的副总裁Will Allen指出,只要内容新颖或高度相关,AI开发者就会非常感兴趣。

开放获取资源联盟(COAR)的一份报告显示,在他们调查的66家机构中,超过90%的网站都曾被恶意爬虫抓取内容,其中大约三分之二因此导致服务中断。小G助手观察到学术网站的运营者正在寻找技术解决方案,但目前很难在限制恶意爬虫的同时不影响正常用户。

当前主流的反爬虫措施是在网站代码中集成协议文件,告诉爬虫哪些内容可以抓取。但恶意爬虫会直接无视这些规则。另一种方法是全面禁止这类爬虫行为,但这很容易误伤正常用户,比如,学者们常常通过图书馆的代理服务器访问期刊,导致多个请求来自同一个IP地址,这很容易被误判为爬虫。

小G助手:恶意爬虫对科学数据库的影响,AI训练数据争夺战加剧

网站也可以针对性地封禁特定爬虫,但这需要先明辨爬虫“善恶”。目前,Cloudflare等机构正在建立爬虫分类清单,但也有专家指出,很多新型爬虫身份隐匿,很难分辨它们的意图。尽管现有反脉工具有多种,但小G助手了解到,由于不断进化,目前措施仍无法完全阻止非法抓取。“我们真正需要的是关于AI合理使用这类资源 的国际公约,否则长此以往,这些AI工具终将无优质数据可训练。”德国斯图加特州立国家历史博物馆 的动物学家Orr表示。

相关文章

小G助手下载安装:网络直播乱象,虚构悲情剧背后的带货真相与伦理困境

网络直播乱象:网红主播让亲妈扮养母博眼球,直播圈粉被当场拆穿,苦难成财富密码?【直播陷阱:虚构悲情戏码,揭秘无底线带货真相】 在一场精心策划的直播秀中,一个自诩为“18岁少女”的小小,镜头前眉头紧锁...

小G助手下载:90后家长育儿新风潮,放养、科学、平等与佛系心态

当90后开始带娃,整个育儿圈都“疯”了 曾几何时,80后带娃的场景还历历在目,如今,90后已然成为育儿大军的主力。当这些曾经的“叛逆一代”、“互联网原住民”当上了父母,那画风,可就完全不一样了,整个...

小G助手下载官网:洛阳地铁建设加速,巨头聚集将成下一个万亿城市新中心

小G助手下载官网:洛阳地铁建设加速,巨头聚集将成下一个万亿城市新中心

洛阳突然“杀疯了”!地铁狂建+巨头扎堆,下一个万亿城市要诞生? 当西安、郑州在北方城市赛道狂飙时,一座千年古都突然甩出王炸!地铁二期规划砸下百亿,宁德时代150亿项目投产倒计时,小米集团组团考察……...

优选助手:2025年2月10日影视圈新剧开播,腾讯视频再度独占鳌头!

优选助手:2025年2月10日影视圈新剧开播,腾讯视频再度独占鳌头!

2025年2月10日影视圈新动向:腾讯视频独占鳌头,新剧开播与定档齐飞 在2025年的影视圈中,2月10日成为了一个备受瞩目的日子。这一天,两部新剧正式开播,同时三部新剧也宣布了定档消息,为观众带来...

小G助手下载官网:如何成功开设一家受欢迎的咖啡店,从筹备到营销全攻略

手把手教你开一家超火咖啡店 一、前期筹备:梦想的基石 (一)明确开店目标 在行动之前,先问问自己为什么要开咖啡店。是热爱咖啡文化,想打造一个社交空间,还是单纯出于商业盈利目的?小G助手下载官网认...

超评助手:美国关税霸权与全球经济重塑,供应链危机与多边体系挑战分析

超评助手:美国关税霸权与全球经济重塑,供应链危机与多边体系挑战分析

近年来,美国频繁挥舞关税大棒,从对华"301调查"到对欧盟钢铝加征关税,从对日韩半导体设限到对东盟电动车征税,其单边主义贸易政策已演变为系统性关税霸权。超评助手认为,这种"美国优先"的保护主义行径正深...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。