python爬虫采集博客园列表
博客园有反爬机制,每天只能爬取一定数量的网页。……
博客园有反爬机制,每天只能爬取一定数量的网页。……
– scrapy持久化存储
– 基于终端指令:
– 要求:只可以将parse方法的返回值存储到本地的文本文件中
– 注意:持久化存储对应的文本文件的类型只可以为:’json’, ‘jsonlines’, ‘jl’, ‘csv’, ‘xml’, ‘marshal’, ‘pickle
– 指令:scrapy crawl xxx -o filePath
– 好处:简介高效便捷
– 缺点:局限性比较强(数据只可以存储到指定后缀的文本文件中)
– 基于管道:
– 编码流程:
– 数据解析
– 在item类中定义相关的属性
– 将解析的数据封装存储到item类型的对象
– 将item类型的对象提交给管道进行持久化存储的操作
– 在管道类的process_item中要将其接受到的item对象中存储的数据进行持久化存储操作
– 在配置文件中开启管道
– 好处:
– 通用性强。……
– scrapy框架的基本使用
– 环境的安装:
– mac or linux:pip install scrapy
– windows:
– pip install wheel
– 下载twisted,下载地址为http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
– 安装twisted:pip install Twisted‑17.1.0‑cp36‑cp36m‑win_amd64.whl
– pip install pywin32
– pip install scrapy
测试:在终端里录入scrapy指令,没有报错即表示安装成功!
– 创建一个工程:scrapy startproject xxxPro
– cd xxxPro
– 在spiders子目录中创建一个爬虫文件
– scrapy genspider spiderName www.xxx.com
– 执行工程:
– scrapy crawl spiderName……
这里是利用了Selenium+图片识别验证,来实现12306的模拟登录,中间也参考了好几个项目,实现了这个小demo。……
无头浏览:是在使用selenium是的无可视化,在后台自动运行而不显示出来
反检测:有些网站会检测访问的selenium是否是机器,判断是的话会不给请求……
学了2个多月的爬虫了,终于找到一点儿好玩的东西可以写一写。
模拟登录QQ空间,完成这个的要求:
首先需要下载库selenium,这个在anaconda中是没有的,需要下载。(在这就不说怎么下载了)
其次就是下载某某浏览器的驱动程序(这个其实也好下载,就是在配置的时候容易出错,如果出错去网上搜索就能够找到好的解决方法,读者自行解决)……
iframe 动作链是什么?
iframe 一个标签
动作链 模拟人类的拖动的操作……
一、需求分析
需求:
打开淘宝网站,在搜索框中输入商品名称,点击搜索;
打开滚轮向下滚动;……
selenium模块的基本使用
问题:selenium模块和爬虫之间具有怎样的关联?
– 便捷的获取网站中动态加载的数据
– 便捷实现模拟登录
什么是selenium模块?
– 基于浏览器自动化的一个模块。……