
网络爬虫
[https://baike.baidu.com/item/网络爬虫/5162711?fr=aladdin&fromid=22046949&fromtitle=爬虫] (又被称为网页蜘蛛,网络机器人,在 FOAF 社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。
随着web2.0时代的到来,数据的价值愈发体现出来。无论是在目前火热的人工智能方向,还是在产品侧的用户需求分析,都需要获取到大量的数据,而网络爬虫作为一种技术手段,在不违反主体网站基本要求的情况下是获取数据成本最低的手段。与此同时,爬虫技术也飞速发展。
了解爬虫,首先要了解一个君子协议。
ROBOT.TXT协议
该协议是搜索引擎从业者和网站站长通过邮件讨论定下的,有几个重要的特点:
* robot.txt协议是蜘蛛访问网站的开关,决定蜘蛛可以抓取哪些内容,不可以抓取哪些内容。
* robot.txt是指网站与搜索引擎之间的协议
* 存放在网站根目录网站服务器的根目录下
NODEJS爬虫