同步爬虫-flask服务.py

高性能异步爬虫
目的:在爬虫中使用异步实现高性能的数据爬取操作。

异步爬虫的方式:
– 1.多线程,多进程(不建议):
好处:可以为相关阻塞的操作单独开启线程或者进程,阻塞操作就可以异步执行。
弊端:无法无限制的开启多线程或者多进程。
– 2.线程池、进程池(适当的使用):
好处:我们可以降低系统对进程或者线程创建和销毁的一个频率,从而很好的降低系统的开销。
弊端:池中线程或进程的数量是有上限。……

阅读更多

requests模块-代理操作-综合案例-古诗文网模拟登录

代理:破解封IP这种反爬机制。
什么是代理:
– 代理服务器。
代理的作用:
– 突破自身IP访问的限制。
– 隐藏自身真实IP
代理相关的网站:
– 快代理
– 西祠代理
– www.goubanjia.com
代理ip的类型:
– http:应用到http协议对应的url中
– https:应用到https协议对应的url中

代理ip的匿名度:
– 透明:服务器知道该次请求使用了代理,也知道请求对应的真实ip
– 匿名:知道使用了代理,不知道真实ip
– 高匿:不知道使用了代理,更不知道真实的ip……

阅读更多

 

爬取人人网当前用户的个人详情页数据

模拟登录:
– 爬取基于某些用户的用户信息。
需求:对人人网进行模拟登录。
– 点击登录按钮之后会发起一个post请求
– post请求中会携带登录之前录入的相关的登录信息(用户名,密码,验证码……)
– 验证码:每次请求都会变化……

阅读更多

requests模块高级-模拟登录人人网

模拟登录:
– 爬取基于某些用户的用户信息。
需求:对人人网进行模拟登录。
– 点击登录按钮之后会发起一个post请求
– post请求中会携带登录之前录入的相关的登录信息(用户名,密码,验证码……)
– 验证码:每次请求都会变化……

阅读更多

古诗文网验证码识别

今天做的案例古诗文网的验证码识别
反爬机制:验证码。 识别验证码图片中的数据,用于模拟登陆操作。
我用的是超级鹰的第三方自动识别验证码。……

阅读更多