admin 管理员组文章数量: 1184232
# -coding: utf-8
imoprt urllib2
import urllib
import re
# 填写需要采集的网址
urlPath = '
# 设置网页头部信息,模拟浏览器
headers = {'User-Agent' : agent, 'Accept' : '*/*', 'Referer' : 'http://www.google'}
# 打开网页,并读取网页源码
request = urllib2.Request(urlPath, headers=headers)
response = urllib2.urlopen(request)
html = response.read()
# 构建图片标签正则表达式
img=repile(r"""""",re.I)
# 保存的图片名称和路径,需要自己设置
path = '~/Code/Python/img_splider/'
try:
# 使用正则匹配出所有的img标签
img_list = re.findAll(img, html)
# 遍历得到的所有标签,然后进行下载
for i in xrange(length(img_list)):
# 使用urllib读取打开图片
data = urllib.urlopen(img_list[i]).read()
# 保存图片的格式为jpeg,需要自己看
imgStr = path + str(i) + '.jpeg'
# 打印出图片的url
print imgStr
# 创建文件
f = file(imgStr, 'wb')
# 写入图片
f.write(data)
# 关闭文件流
f.close()
except Exception, e:
print 'error'
以前写了很多关于爬虫的文章,在博客上面,www.scienceswork,可以参考一下。一起学习,上面的代码可以先试下,不行的话在调试
版权声明:本文标题:python获取已打开的网页内容_用Python获取网页数据 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.roclinux.cn/b/1768022674a3527009.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论