爬虫应用场景广泛,合规与不合规的场景都有。例如,抓取电商网站的评价数据做市场调研;做数字内容的可以利用爬虫去抓取网络相应内容;抓取裁判文书网数据,进行优化后推出“付费版数据库”;企查查、天眼查也在利用爬虫技术对政府公开数据实现商业使用。”欧莱雅中国区数字化负责人刘煜介绍。
 
  刘煜对爬虫的基本原理进行了解释,通常爬虫会定位网站所有的URL链接,获取页面里的数据,再对数据进行拆解利用。不管在网页端还是移动端,基本爬虫都基于这样的原理。使用爬虫技术对于‘爬虫一方’和‘被爬虫一方’都具有风险,轻则网站崩溃、重则面临牢狱之灾。
 
  具体来说,对于那些小网站或者技术实力弱的网站,如果爬虫7X24小时持续访问,可能因服务器无法承受激增的流量,导致网站崩溃。更麻烦的是,对编写爬虫的程序员来说,如果爬到不该爬取数据,再利用这些数据,可能属于违法行为。
 
  刘煜表示,在不同场景中,对于爬虫的态度截然不同。例如,搜索引擎爬虫受人欢迎,因为搜索引擎能提高被爬网站的曝光率;但大多数网站也会基于服务器的风险、或者种种商业原因,不希望爬虫抓取数据。拒绝分两种,‘反爬’机制,‘反反爬’机制。网站可以去制定相应策略或者技术手段,去防止爬虫抓取数据。
 
  网站常见的应对策略是放置Robots协议,该协议由荷兰工程师傅马丁·科斯特(Martijn Koster )在1994年编写,后来成为数据爬取方和被爬取方之间通行的沟通机制。中国互联网协会2012年发布的《中国互联网行业自律公约》中,将遵守Robots协议认定为“国际通行的行业管理与商业规则”。

dawei

【声明】:站长网内容转载自互联网,其相关言论仅代表作者个人观点绝非权威,不代表本站立场。如您发现内容存在版权问题,请提交相关链接至邮箱:bqsm@foxmail.com,我们将及时予以处理。