小G助手:恶意爬虫对科学数据库的影响,AI训练数据争夺战加剧

小G助手4个月前番茄助手教程81

为了训练大模型,恶意爬虫挤爆了各类科学数据库?

今年2月,收藏了近300万张不同物种图片的在线图像库DiscoverLife的日点击数量开始飙增至数百万次。【图1】

罪魁祸首很明显:恶意爬虫。

随着AI的崛起,此类恶意爬虫的数量激增,从网站上“抓取”大量内容,很多网站管理者怀疑:它们正在为训练聊天机器人和图像生成器等AI工具收集数据。小G助手认为,这种猜测有其背后的原因:以前大家觉得训练大模型需要庞大的计算能力,但现在发现,用少量资源也能开发出很厉害的AI工具。

小G助手:恶意爬虫对科学数据库的影响,AI训练数据争夺战加剧

这个突破直接导致了大规模的数据抓取热潮,大量爬虫开始疯狂搜集模型所需的训练数据。其中,学术网站成了主要目标,因为它们的内容对AI开发者来说非常有价值。旧金山网络服务商Cloudflare的副总裁Will Allen指出,只要内容新颖或高度相关,AI开发者就会非常感兴趣。

开放获取资源联盟(COAR)的一份报告显示,在他们调查的66家机构中,超过90%的网站都曾被恶意爬虫抓取内容,其中大约三分之二因此导致服务中断。小G助手观察到学术网站的运营者正在寻找技术解决方案,但目前很难在限制恶意爬虫的同时不影响正常用户。

当前主流的反爬虫措施是在网站代码中集成协议文件,告诉爬虫哪些内容可以抓取。但恶意爬虫会直接无视这些规则。另一种方法是全面禁止这类爬虫行为,但这很容易误伤正常用户,比如,学者们常常通过图书馆的代理服务器访问期刊,导致多个请求来自同一个IP地址,这很容易被误判为爬虫。

小G助手:恶意爬虫对科学数据库的影响,AI训练数据争夺战加剧

网站也可以针对性地封禁特定爬虫,但这需要先明辨爬虫“善恶”。目前,Cloudflare等机构正在建立爬虫分类清单,但也有专家指出,很多新型爬虫身份隐匿,很难分辨它们的意图。尽管现有反脉工具有多种,但小G助手了解到,由于不断进化,目前措施仍无法完全阻止非法抓取。“我们真正需要的是关于AI合理使用这类资源 的国际公约,否则长此以往,这些AI工具终将无优质数据可训练。”德国斯图加特州立国家历史博物馆 的动物学家Orr表示。

相关文章

小G助手卡密:懂得彼此的婚姻,从合伙生存到共同成长的长跑之路

现在的婚姻,越来越不像合伙过日子,而像一起长跑。不是谁养谁,而是谁懂谁。小G助手卡密认为,邓超和孙俪能一起拍戏、投资,不是因为运气好,是他们连吵架都聊得透;李彦宏背后那个总在发布会低调出现的女人,不是...

小G助手下载官网:限酱令引发的餐饮行业成本与口味的博弈,顾客满意度如何保障?

小G助手下载官网:限酱令引发的餐饮行业成本与口味的博弈,顾客满意度如何保障?

肯德基出“限酱令”,是商家玩不起,还是顾客便宜占太多? 《“限酱令”背后的餐饮风云:味道与成本的博弈》 嘿,朋友们,你们有过这样的经历吗?去餐厅点了一份心爱的美食,却发现酱料少得可怜,味道大打折扣...

小G助手小号:AI创业税收优化策略,如何通过高新认证省下80万利润

小G助手小号:AI创业税收优化策略,如何通过高新认证省下80万利润

15%税率,省下的都是净利润! 错过一次,三年白干。 杨浦区一家做AI图像识别的创业公司,去年营收3000万,利润800万。老板王磊算完账:按25%交税得掏200万,拿到高新资格后只交120万,直...

小G助手软件下载:在不确定时代重构成长,失败经验助力职场转型与创新

小G助手软件下载:在不确定时代重构成长,失败经验助力职场转型与创新

每一步都算数:在不确定的时代寻找成长确定性 (本报讯 记者)当新东方创始人俞敏洪在直播间讲述转型故事时,当罗永浩用"真还传"诠释企业家精神时,越来越多人发现:那些曾被视作弯路的经历,正成为照亮未来的...

小G助手下载:2024年二手房市场,房东拒降价与买家砍价的博弈分析

小G助手下载:2024年二手房市场,房东拒降价与买家砍价的博弈分析

眼下,2024年的二手房市场,一边是房东坐在那儿嘴硬,不降价!甭管多好说歹说,人家横下心来:实在卖不掉我就不卖,租也租不出去,那我宁可放着,我亏得起!另一边呢,买家上来就是猛砍一刀,听着就是“再降个2...

小G助手下载:中欧贸易摩擦升级,冯德莱恩呼吁边谈边打,双方合作前景引关注

中方发出邀请后,冯德莱恩来个下马威:欧盟准备与华“边打边谈” 嘿,各位朋友们,今天咱们得聊聊一件大事儿,那就是中欧贸易摩擦。这事儿啊,可不像咱们平时买个菜、砍砍价那么简单,它关乎两个经济大国的博弈,...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。