admin 管理员组文章数量: 1087649
爬取豆瓣读书的书籍(一)
环境准备:
Python3
PyCharm 2018.3.4 x64
Google Chrome浏览器
爬取豆瓣读书书籍的基本步骤
1、在pycharm中导入urllib模块的request;
2、获取豆瓣读书网的url信息和User-Agent;
3、用urlopen打开网址并发送请求;
4、用urlretrieve来保存我们打开的网页信息。
爬取豆瓣首页信息
from urllib import request
#获取豆瓣读书的网址
url = '/'
#获取豆瓣读书网的代理用户信息
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.87 Safari/537.36'
}
#打开网址并发送请求
rq = request.Request(url,headers=headers)
res = request.urlopen(rq)
resp=request.urlretrieve(url,'')
print(res.read().decode('utf-8')) #解码
谢谢!
本文标签: 爬取豆瓣读书的书籍(一)
版权声明:本文标题:爬取豆瓣读书的书籍(一) 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.roclinux.cn/p/1700323231a396669.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论