1.scrapy安装
-pip install scrapy
2.创建爬虫项目
(1)win + R 打开cmd

(2)进入创建项目的文件夹

(3)scrapy startproject 项目的名字
注意:项目的名字不允许使用数字开头,切不能包含中文
例: scrapy startproject scrapy_baidu_34

3.创建爬虫文件
(1)在spiders文件夹下创建爬虫文件

cd 项目的名字\项目的名字\spiders
例:cd scrapy_baidu_34\scrapy_baidu_34\spiders
(2)创建爬虫文件
scrapy genspider 爬虫文件的名字 要爬取的网页
例:scrapy genspider baidu www.baidu.com

注意:网页网址前不要添加http协议
因为start_urls的值是根据allowed_domains修改的,会自动添加http://******/
如果写了http协议,在程序中手动删掉即可

3.运行爬虫代码
scarpy crawl 爬虫的名字
例:scrapy crawl baidu
此时运行会发现打印语句没有执行
这是因为爬虫遵循君子协议
我们需要在项目中找到settings文件,并找到如下语句,将其注释或将ROBOTSTXT_OBEY的值改为false
# Obey robots.txt rules ROBOTSTXT_OBEY = True

此时重新运行

发现已成功打印
更多:
https://www.cnblogs.com/yaya625202/p/10400807.html