scrapy数据解析操作

– scrapy持久化存储
– 基于终端指令:
– 要求:只可以将parse方法的返回值存储到本地的文本文件中
– 注意:持久化存储对应的文本文件的类型只可以为:’json’, ‘jsonlines’, ‘jl’, ‘csv’, ‘xml’, ‘marshal’, ‘pickle
– 指令:scrapy crawl xxx -o filePath
– 好处:简介高效便捷
– 缺点:局限性比较强(数据只可以存储到指定后缀的文本文件中)
– 基于管道:
– 编码流程:
– 数据解析
– 在item类中定义相关的属性
– 将解析的数据封装存储到item类型的对象
– 将item类型的对象提交给管道进行持久化存储的操作
– 在管道类的process_item中要将其接受到的item对象中存储的数据进行持久化存储操作
– 在配置文件中开启管道
– 好处:
– 通用性强。……

阅读更多

scrapy框架的基本使用

– scrapy框架的基本使用
– 环境的安装:
– mac or linux:pip install scrapy
– windows:
– pip install wheel
– 下载twisted,下载地址为http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
– 安装twisted:pip install Twisted‑17.1.0‑cp36‑cp36m‑win_amd64.whl
– pip install pywin32
– pip install scrapy
测试:在终端里录入scrapy指令,没有报错即表示安装成功!
– 创建一个工程:scrapy startproject xxxPro
– cd xxxPro
– 在spiders子目录中创建一个爬虫文件
– scrapy genspider spiderName www.xxx.com
– 执行工程:
– scrapy crawl spiderName……

阅读更多

   
 
 

国外类似博客园csdn的程序员网站

每个行业都有自己的圈子,而程序员也有自己的圈子,他们有自己喜欢经常浏览的社区网站和博客站点,都知道国内技术网站有CSDN,博客园, 掘金,v2ex,知乎等等技术交流平台,那么你知道国外程序员经常逛的技术网站有哪些吗? ……

阅读更多

学习Python需要关注和学习的国外大神博客

注意 : 本文收集于网路 . 由于常常更新 , 有些链接打不开, 请自备梯子

在学习Python过程中,总会遇到各种各样的坑, 虽然Python是一门优美而简单易学的语言 . 但当学习后 , 总想着更深层次的学习 , 但苦于国内Python翻译文档的量少 , 故而整理了些阅读文档–国外大牛的博客 , 供后面的学习者参阅学习…….

阅读更多

Scrapy框架简介

Scrapy

– 什么是框架?
– 就是一个集成了很多功能并且具有很强通用性的一个项目模板。
– 如何学习框架?
– 专门学习框架封装的各种功能的详细用法。
– 什么是scrapy?
– 爬虫中封装好的一个明星框架。功能:高性能的持久化存储,异步的数据下载,高性能的数据解析,分布式……

阅读更多

基于selenium实现12306模拟登录

这里是利用了Selenium+图片识别验证,来实现12306的模拟登录,中间也参考了好几个项目,实现了这个小demo。……

阅读更多

   
 
 

谷歌无头浏览器+反检测

无头浏览:是在使用selenium是的无可视化,在后台自动运行而不显示出来
反检测:有些网站会检测访问的selenium是否是机器,判断是的话会不给请求……

阅读更多

爬虫案例——模拟登录QQ空间

学了2个多月的爬虫了,终于找到一点儿好玩的东西可以写一写。
模拟登录QQ空间,完成这个的要求:
首先需要下载库selenium,这个在anaconda中是没有的,需要下载。(在这就不说怎么下载了)
其次就是下载某某浏览器的驱动程序(这个其实也好下载,就是在配置的时候容易出错,如果出错去网上搜索就能够找到好的解决方法,读者自行解决)……

阅读更多