scrapy框架的基本使用

– scrapy框架的基本使用
– 环境的安装:
– mac or linux:pip install scrapy
– windows:
– pip install wheel
– 下载twisted,下载地址为http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
– 安装twisted:pip install Twisted‑17.1.0‑cp36‑cp36m‑win_amd64.whl
– pip install pywin32
– pip install scrapy
测试:在终端里录入scrapy指令,没有报错即表示安装成功!
– 创建一个工程:scrapy startproject xxxPro
– cd xxxPro
– 在spiders子目录中创建一个爬虫文件
– scrapy genspider spiderName www.xxx.com
– 执行工程:
– scrapy crawl spiderName

Scrapy框架

1.scrapy安装

-pip install scrapy

2.创建爬虫项目

(1)win + R 打开cmd

(2)进入创建项目的文件夹

(3)scrapy startproject 项目的名字

注意:项目的名字不允许使用数字开头,切不能包含中文

例: scrapy startproject scrapy_baidu_34

3.创建爬虫文件

(1)在spiders文件夹下创建爬虫文件

cd 项目的名字\项目的名字\spiders

例:cd scrapy_baidu_34\scrapy_baidu_34\spiders

(2)创建爬虫文件

scrapy genspider 爬虫文件的名字 要爬取的网页

例:scrapy genspider baidu www.baidu.com

注意:网页网址前不要添加http协议

           因为start_urls的值是根据allowed_domains修改的,会自动添加http://******/

           如果写了http协议,在程序中手动删掉即可

3.运行爬虫代码
scarpy crawl 爬虫的名字

例:scrapy crawl baidu

此时运行会发现打印语句没有执行

这是因为爬虫遵循君子协议

我们需要在项目中找到settings文件,并找到如下语句,将其注释或将ROBOTSTXT_OBEY的值改为false

# Obey robots.txt rules
ROBOTSTXT_OBEY = True

此时重新运行

发现已成功打印

更多:
https://www.cnblogs.com/yaya625202/p/10400807.html

发表评论

邮箱地址不会被公开。 必填项已用*标注