热点

服务器嵌入式开发：语言解析、控流与函数效能优化

极简科技赋能电商：高质信息流新体验

多端联动秒级响应：UI测试驱动运营效能跃升

Linux高效小程序开发：工具链构建与快速部署

数智赋能电商：推荐算法驱动测试新范式

实时优化驱动交互效能跃升，赋能运营中心智能化升级

物联网工程师的高效建站指南：精准选型，快速上线

极简设计×高品质信息流：前端开发者的科技美学

运营中心交互革新：前端实时响应赋能高效操作

运营中心交互焕新：实时响应驱动效率跃升

9 2 月 2026, 周一

通讯

网络爬虫无处不在，应当如何制止？

由 dawei 10 月 30, 2021 没有评论 #制止 #场景 #如何 #广 #应当 #应用 #无处不在 #爬虫 #网络

爬虫应用场景广泛，合规与不合规的场景都有。例如，抓取电商网站的评价数据做市场调研；做数字内容的可以利用爬虫去抓取网络相应内容；抓取裁判文书网数据，进行优化后推出“付费版数据库”；企查查、天眼查也在利用爬虫技术对政府公开数据实现商业使用。”欧莱雅中国区数字化负责人刘煜介绍。

　　刘煜对爬虫的基本原理进行了解释，通常爬虫会定位网站所有的URL链接，获取页面里的数据，再对数据进行拆解利用。不管在网页端还是移动端，基本爬虫都基于这样的原理。使用爬虫技术对于‘爬虫一方’和‘被爬虫一方’都具有风险，轻则网站崩溃、重则面临牢狱之灾。

　　具体来说，对于那些小网站或者技术实力弱的网站，如果爬虫7X24小时持续访问，可能因服务器无法承受激增的流量，导致网站崩溃。更麻烦的是，对编写爬虫的程序员来说，如果爬到不该爬取数据，再利用这些数据，可能属于违法行为。

　　刘煜表示，在不同场景中，对于爬虫的态度截然不同。例如，搜索引擎爬虫受人欢迎，因为搜索引擎能提高被爬网站的曝光率；但大多数网站也会基于服务器的风险、或者种种商业原因，不希望爬虫抓取数据。拒绝分两种，‘反爬’机制，‘反反爬’机制。网站可以去制定相应策略或者技术手段，去防止爬虫抓取数据。

　　网站常见的应对策略是放置Robots协议，该协议由荷兰工程师傅马丁·科斯特（Martijn Koster ）在1994年编写，后来成为数据爬取方和被爬取方之间通行的沟通机制。中国互联网协会2012年发布的《中国互联网行业自律公约》中，将遵守Robots协议认定为“国际通行的行业管理与商业规则”。

由 dawei

【声明】：站长网内容转载自互联网，其相关言论仅代表作者个人观点绝非权威，不代表本站立场。如您发现内容存在版权问题，请提交相关链接至邮箱：bqsm@foxmail.com，我们将及时予以处理。

通讯

移动互联新篇章：技术赋能通话质跃

dawei 1 月 17, 2026

通讯

大数据架构驱动移动互联通话革新

dawei 1 月 17, 2026

通讯

移动互联引擎驱动通信双升级

dawei 1 月 17, 2026

语言

服务器嵌入式开发：语言解析、控流与函数效能优化

佳作

极简科技赋能电商：高质信息流新体验

产品

多端联动秒级响应：UI测试驱动运营效能跃升

Linux

Linux高效小程序开发：工具链构建与快速部署