scrapy数据解析操作
– scrapy持久化存储
– 基于终端指令:
– 要求:只可以将parse方法的返回值存储到本地的文本文件中
– 注意:持久化存储对应的文本文件的类型只可以为:’json’, ‘jsonlines’, ‘jl’, ‘csv’, ‘xml’, ‘marshal’, ‘pickle
– 指令:scrapy crawl xxx -o filePath
– 好处:简介高效便捷
– 缺点:局限性比较强(数据只可以存储到指定后缀的文本文件中)
– 基于管道:
– 编码流程:
– 数据解析
– 在item类中定义相关的属性
– 将解析的数据封装存储到item类型的对象
– 将item类型的对象提交给管道进行持久化存储的操作
– 在管道类的process_item中要将其接受到的item对象中存储的数据进行持久化存储操作
– 在配置文件中开启管道
– 好处:
– 通用性强。……