scrapy数据解析操作

– scrapy持久化存储
– 基于终端指令:
– 要求:只可以将parse方法的返回值存储到本地的文本文件中
– 注意:持久化存储对应的文本文件的类型只可以为:’json’, ‘jsonlines’, ‘jl’, ‘csv’, ‘xml’, ‘marshal’, ‘pickle
– 指令:scrapy crawl xxx -o filePath
– 好处:简介高效便捷
– 缺点:局限性比较强(数据只可以存储到指定后缀的文本文件中)
– 基于管道:
– 编码流程:
– 数据解析
– 在item类中定义相关的属性
– 将解析的数据封装存储到item类型的对象
– 将item类型的对象提交给管道进行持久化存储的操作
– 在管道类的process_item中要将其接受到的item对象中存储的数据进行持久化存储操作
– 在配置文件中开启管道
– 好处:
– 通用性强。……

阅读更多

scrapy框架的基本使用

– scrapy框架的基本使用
– 环境的安装:
– mac or linux:pip install scrapy
– windows:
– pip install wheel
– 下载twisted,下载地址为http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
– 安装twisted:pip install Twisted‑17.1.0‑cp36‑cp36m‑win_amd64.whl
– pip install pywin32
– pip install scrapy
测试:在终端里录入scrapy指令,没有报错即表示安装成功!
– 创建一个工程:scrapy startproject xxxPro
– cd xxxPro
– 在spiders子目录中创建一个爬虫文件
– scrapy genspider spiderName www.xxx.com
– 执行工程:
– scrapy crawl spiderName……

阅读更多

   
 

谷歌无头浏览器+反检测

无头浏览:是在使用selenium是的无可视化,在后台自动运行而不显示出来
反检测:有些网站会检测访问的selenium是否是机器,判断是的话会不给请求……

阅读更多

   
 

爬虫案例——模拟登录QQ空间

学了2个多月的爬虫了,终于找到一点儿好玩的东西可以写一写。
模拟登录QQ空间,完成这个的要求:
首先需要下载库selenium,这个在anaconda中是没有的,需要下载。(在这就不说怎么下载了)
其次就是下载某某浏览器的驱动程序(这个其实也好下载,就是在配置的时候容易出错,如果出错去网上搜索就能够找到好的解决方法,读者自行解决)……

阅读更多

selenium基础用法

selenium模块的基本使用

问题:selenium模块和爬虫之间具有怎样的关联?
– 便捷的获取网站中动态加载的数据
– 便捷实现模拟登录
什么是selenium模块?
– 基于浏览器自动化的一个模块。……

阅读更多