#!/usr/bin/env python # -*- coding:utf-8 -*- import requests import json if __name__ == "__main__": url = 'https://movie.douban.com/j/chart/top_list' param = { 'type': '24', 'interval_id': '100:90', 'action':'', 'start': '0',#从库中的第几部电影去取 'limit': '20',#一次取出的个数 } headers = { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36' } response = requests.get(url=url,params=param,headers=headers) list_data = response.json() fp = open('./douban.json','w',encoding='utf-8') json.dump(list_data,fp=fp,ensure_ascii=False) print('over!!!')
requests实战之豆瓣电影爬取
爬虫的基本原理——通用框架
1.挑选种子URL;
2.讲这些URL放入带抓取的URL列队;
3.取出带抓取的URL,下载并存储进已下载网页库中。此外,讲这些URL放入带抓取URL列队,进入下一循环。
4.分析已抓取列队中的URL,并且将URL放入带抓取URL列队,从而进去下一循环。
