Python 爬虫系列 – 爬虫简介

爬虫指在使用程序模拟浏览器向服务端发出网络请求,以便获取服务端返回的内容。

Python 网络爬虫

   爬虫指在使用程序模拟浏览器向服务端发出网络请求,以便获取服务端返回的内容。

   但这些内容可能涉及到一些机密信息,所以爬虫领域目前来讲是属于灰色领域,切勿违法犯罪。

   爬虫本身作为一门技术没有任何问题,关键是看人们怎么去使用它

   《中华人民共和国刑法》第二百八十五条规定:非法获取计算机信息系统数据、非法控制计算机信息系统罪,是指违反国家规定,侵入国家事务、国防建设、尖端科学技术领域以外的计算机信息系统或者采用其他技术手段,获取该计算机信息系统中存储、处理或者传输的数据,情节严重的行为。刑法第285条第2款明确规定,犯本罪的,处三年以下有期徒刑或者拘役,并处或者单处罚金;情节特别严重的,处三年以上七年以下有期徒刑,并处罚金。

   《反不正当竞争法》第九条规定:以不正当手段获取他人商业秘密的行为即已经构成侵犯商业秘密。而后续如果进一步利用,或者公开该等信息,则构成对他人商业秘密的披露和使用,同样构成对权利人的商业秘密的侵犯。

   《刑法》第二百八十六条规定:违反国家规定,对计算机信息系统功能进行删除、修改、增加、干扰,造成计算机信息系统不能正常运行,后果严重的,构成犯罪,处五年以下有期徒刑或者拘役;后果特别严重的,处五年以上有期徒刑。而违反国家规定,对计算机信息系统中存储、处理或者传输的数据和应用程序进行删除、修改、增加的操作,后果严重的,也构成犯罪,依照前款的规定处罚。

   《网络安全法》第四十四条规定:任何个人和组织不得窃取或者以其他非法方式获取个人信息。因此,如果爬虫在未经用户同意的情况下大量抓取用户的个人信息,则有可能构成非法收集个人信息的违法行为。

   《民法总则》第111条规定:任何组织和个人需要获取他人个人信息的,应当依法取得并确保信息安全。不得非法收集、使用、加工、传输他人个人信息

1|2爬虫分类

   根据爬虫的应用范畴,可有一些三种区分:

   通用爬虫

   搜索引擎本质就是一个巨大的爬虫,首先该爬虫会爬取整张页面,并且对该页面做备份,之后对其进行数据内容处理如抓取关键字等,然后向用户提供检索接口。

   聚焦式爬虫

   只关注于页面上某一部分内容,如只关注图片、链接等。

   增量式爬虫

   用于检索内容是否更新,如开发了一个增量式爬虫每天查看一下云崖博客有没有更新,有更新就爬下来等等…

1|3robots协议

   robots协议是爬虫领域非常出名的一种协议,由门户网站提供。

   它规定了该站点哪些内容允许爬取,哪些内容不允许爬取。

   如果爬取不允许的内容,可对其追究法律责任。

发表评论

电子邮件地址不会被公开。 必填项已用*标注