全网最全系统学习爬虫教程，用爬虫进行数据分析（bs4,xpath,正则表达式)

admin 管理员组

文章数量: 1184232

1.bs4解析基础

2.bs4案例

3.xpath解析基础

4.xpath解析案例-4k图片解析爬取

5.xpath解析案例-58二手房

6.xpath解析案例-爬取站长素材中免费简历模板

7.xpath解析案例-全国城市名称爬取

8.正则解析

9.正则解析-分页爬取

10.爬取图片

1.bs4解析基础

from bs4 import BeautifulSoup
fp =open('第三章 数据分析/text.html','r',encoding='utf-8')
soup =BeautifulSoup(fp,'lxml')#print(soup)#print(soup.a)#print(soup.div)#print(soup.find('div'))#print(soup.find('div',class_="song"))#print(soup.find_all('a'))#print(soup.select('.tang'))#print(soup.select('.tang > ul > li >a')[0].text)#print(soup.find('div',class_="song").text)#print(soup.find('div',class_="song").string)print(soup.select('.tang > ul > li >a')[0]['href'])

2.bs4案例

from bs4 import BeautifulSoup
import requests
headers ={'User-Agent': 'Mozilla/5.0(Windows NT 10.0; WOW64) AppleWebKit/537.36(KHTML, like Gecko) Chrome/86.0.4240.193 Safari/537.36'
}
url =""
page_text = requests.get(url ,headers = headers).content
#print(page_text)
soup =BeautifulSoup(page_text,'lxml')
li_list = soup.select('.list > ul > li')
fp =open('./sanguo.txt','w',encoding='utf-8')for li in li_list:
    title = li.a.string
    #print(title)
    detail_url ='+li.a['href']print(detail_url)
    detail_page_text = requests.get(detail_url,headers = headers).content
    detail_soup =BeautifulSoup(detail_page_text,'lxml')
    div_tag = detail_soup.find('div',class_="grap")
    content = div_tag.text
    fp.write(title+":"+content+'\n')print(title,'爬取成功！！！')

3.xpath解析基础

from lxml import etree
tree = etree.parse('第三章 数据分析/text.html')#r= tree.xpath('/html/head/title')#print(r)#r= tree.xpath('/html/body/div')#print(r)#r= tree.xpath('/html//div')#print(r)#r= tree.xpath('//div')#print(r)#r= tree.xpath('//div[@class="song"]')#print(r)#r= tree.xpath('//div[@class="song"]/P[3]')#print(r)#r= tree.xpath('//div[@class="tang"]//li[5]/a/text()')#print(r)#r= tree.xpath('//li[7]/i/text()')#print(r)#r= tree.xpath('//li[7]//text()')#print(r)#r= tree.xpath('//div[@class="tang"]//text()')#print(r)#r= tree.xpath('//div[@class="song"]/img/@src')#print(r)

4.xpath解析案例-4k图片解析爬取

import requests
from lxml import etree
import os
headers ={'User-Agent': 'Mozilla/5.0(Windows NT 10.0; WOW64) AppleWebKit/537.36(KHTML, like Gecko) Chrome/86.0.4240.193 Safari/537.36'
}
url ='
response = requests.get(url,headers = headers)#response.encoding=response.apparent_encoding#response.encoding ='utf-8'
page_text = response.text
tree = etree.HTML(page_text)
li_list = tree.xpath('//div[@class="slist"]/ul/li')#ifnot os.path.exists('./picLibs'):#os.mkdir('./picLibs')for li in li_list:
    img_src ='+li.xpath('./a/img/@src')[0]
    img_name = li.xpath('./a/img/@alt')[0]+'.jpg'
    img_name = img_name.encode('iso-8859-1').decode('gbk')#print(img_name,img_src)#print(type(img_name))
    img_data = requests.get(url = img_src,headers = headers).content
    img_path ='picLibs/'+img_name
    #print(img_path)
    with open(img_path,'wb') as fp:
        fp.write(img_data)print(img_name,"下载成功")

5.xpath解析案例-58二手房

import requests
from lxml import etree
url ='
headers ={'User-Agent': 'Mozilla/5.0(Windows NT 10.0; WOW64) AppleWebKit/537.36(KHTML, like Gecko) Chrome/86.0.4240.193 Safari/537.36'
}
page_text = requests.get(url=url,headers = headers).text
tree = etree.HTML(page_text)
li_list = tree.xpath('//section[@class="list-left"]/section[2]/div')
fp =open('58.txt','w',encoding='utf-8')for li in li_list:
    title = li.xpath('./a/div[2]/div/div/h3/text()')[0]print(title)
    fp.write(title+'\n')

6.xpath解析案例-爬取站长素材中免费简历模板

import requests
from lxml import etree
import os
headers ={'User-Agent': 'Mozilla/5.0(Windows NT 10.0; WOW64) AppleWebKit/537.36(KHTML, like Gecko) Chrome/86.0.4240.193 Safari/537.36'
}
url = 'https://www.aqistudy.cn/historydata/'
page_text = requests.get(url,headers = headers).text

7.xpath解析案例-全国城市名称爬取

import requests
from lxml import etree
import os
headers ={'User-Agent': 'Mozilla/5.0(Windows NT 10.0; WOW64) AppleWebKit/537.36(KHTML, like Gecko) Chrome/86.0.4240.193 Safari/537.36'
}
url = 'https://www.aqistudy.cn/historydata/'
page_text = requests.get(url,headers = headers).text
tree = etree.HTML(page_text)#holt_li_list = tree.xpath('//div[@class="bottom"]/ul/li')#all_city_name =[]#forli in holt_li_list:#host_city_name = li.xpath('./a/text()')[0]#all_city_name.append(host_city_name)#city_name_list = tree.xpath('//div[@class="bottom"]/ul/div[2]/li')#forli in city_name_list:#city_name = li.xpath('./a/text()')[0]#all_city_name.append(city_name)#print(all_city_name,len(all_city_name))#holt_li_list = tree.xpath('//div[@class="bottom"]/ul//li')
holt_li_list = tree.xpath('//div[@class="bottom"]/ul/li | //div[@class="bottom"]/ul/div[2]/li')
all_city_name =[]for li in holt_li_list:
    host_city_name = li.xpath('./a/text()')[0]
    all_city_name.append(host_city_name)print(all_city_name,len(all_city_name))

8.正则解析

import requests
import re
import os
if not os.path.exists('./qiutuLibs'):
    os.mkdir('./qiutuLibs')
url = 'https://www.qiushibaike.com/imgrank/'
headers ={'User-Agent': 'Mozilla/5.0(Windows NT 10.0; WOW64) AppleWebKit/537.36(KHTML, like Gecko) Chrome/89.0.4385.0 Safari/537.36'
}
page_text = requests.get(url,headers = headers).text
ex = '<div class="thumb">.*?<img src="(.*?)" alt.*?</div>'
img_src_list = re.findall(ex,page_text,re.S)print(img_src_list)for src in img_src_list:
    src ='https:'+ src
    img_data = requests.get(url = src,headers = headers).content
    img_name = src.split('/')[-1]
    imgPath ='./qiutuLibs/'+img_name
    with open(imgPath,'wb') as fp:
        fp.write(img_data)print(img_name,"下载完成！！！！！")

9.正则解析-分页爬取

import requests
import re
import os
if not os.path.exists('./qiutuLibs'):
    os.mkdir('./qiutuLibs')
headers ={'User-Agent': 'Mozilla/5.0(Windows NT 10.0; WOW64) AppleWebKit/537.36(KHTML, like Gecko) Chrome/89.0.4385.0 Safari/537.36'
}
url = 'https://www.qiushibaike.com/imgrank/page/%d/'for pageNum in range(1,3):
    new_url =format(url%pageNum)
    page_text = requests.get(new_url,headers = headers).text
    ex = '<div class="thumb">.*?<img src="(.*?)" alt.*?</div>'
    img_src_list = re.findall(ex,page_text,re.S)print(img_src_list)for src in img_src_list:
        src ='https:'+ src
        img_data = requests.get(url = src,headers = headers).content
        img_name = src.split('/')[-1]
        imgPath ='./qiutuLibs/'+img_name
        with open(imgPath,'wb') as fp:
            fp.write(img_data)print(img_name,"下载完成！！！！！")

10.爬取图片

import requests
url = 'https://pic.qiushibaike.com/system/pictures/12404/124047919/medium/R7Y2UOCDRBXF2MIQ.jpg'
img_data = requests.get(url).content
with open('qiutu.jpg','wb') as fp:
    fp.write(img_data)

关于Python技术储备

学好 Python 不论是就业还是做副业赚钱都不错，但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料，给那些想学习 Python 的小伙伴们一点帮助！

一、Python所有方向的学习路线

Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。（文末获取！）

二、Python必备开发工具

三、精品Python学习书籍

当我学到一定基础，有自己的理解能力的时候，会去阅读一些前辈整理的书籍或者手写的笔记资料，这些笔记详细记载了他们对一些技术点的理解，这些理解是比较独到，可以学到不一样的思路。

四、Python视频合集

观看零基础学习视频，看视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。

五、实战案例

光学理论是没用的，要学会跟着一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

六、Python练习题

检查学习结果。

七、面试资料

我们学习Python必然是为了找到高薪的工作，下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料，并且有阿里大佬给出了权威的解答，刷完这一套面试资料相信大家都能找到满意的工作。

这份完整版的Python全套学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【 `保证100%免费` 】

本文标签：解析案例正则解析解析基础

版权声明：本文标题：全网最全系统学习爬虫教程，用爬虫进行数据分析（bs4,xpath,正则表达式)_熟练使用xpath,bs4 内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.roclinux.cn/b/1773869820a3566654.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

Linux大棚 – 不忘初心的技术博客，浮躁时代的安静角落

全网最全系统学习爬虫教程，用爬虫进行数据分析（bs4,xpath,正则表达式)_熟练使用xpath,bs4

1.bs4解析基础

2.bs4案例

3.xpath解析基础

4.xpath解析案例-4k图片解析爬取

5.xpath解析案例-58二手房

6.xpath解析案例-爬取站长素材中免费简历模板

7.xpath解析案例-全国城市名称爬取

8.正则解析

9.正则解析-分页爬取

10.爬取图片

关于Python技术储备

一、Python所有方向的学习路线

二、Python必备开发工具

三、精品Python学习书籍

四、Python视频合集

五、实战案例

六、Python练习题

七、面试资料

这份完整版的Python全套学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【 保证100%免费 】

更多相关文章

全网最全系统学习爬虫教程，用爬虫进行数据分析（bs4,xpath,正则表达式)_熟练使用xpath,bs4

发表评论

推荐文章

电脑运行效率低？关注这七大原因，从SWF文件到Flash Player，全面提升速度！

Windows Media Player变身VOB播放专家，只需添加这个实用插件！

怎么删除word中的空白页？_word文档如何删除空白页

贴吧导航的火炬2地图探索：SWF、Flash高手的秘籍

USB共享网络，电脑为啥不互动？一文帮你搞定

热门文章

Win10中找到并修复mfc71ud.dll，让程序运行无忧！

DDK编程之---Windows设备的具体属性

ES6符号类型详解

移动硬盘无法读取故障分析和解决方法_大容量移动硬盘无法识别

华为路由器Nasp设置以及直连路由，静态路由，缺省路由，_华为路由器language-mode

笔记本连无线出现“有限的访问权限”解决办法_笔记本无线网络,连接一会就出现“有限的访问权限”

在Word 2003中快速去掉页眉横线

清理内存，还得靠它_内存清理单文件

编程入门（四）【计算机网络基础（由一根网线连接两个电脑开始）】_一条网线接两台电脑

移动硬盘卡壳于'函数不正确'？全面解析与恢复指南助你一臂之力

最新文章

一文教会你AIX系统备份：mksysb实用指南

SWF文件备份失败？这些步骤让你轻松搞定

Win10系统备份轻松搞定：掌握captureimage命令的关键技巧

Linux系统安全小贴士：掌握备份与恢复，安心每一天

省时省心！三步完成电脑系统高效备份！

Ubuntu系统维护秘籍：备份步骤详解，保护你的劳动成果！

Linux系统不哭：高效备份与快速恢复方案

Ubuntu系统安全大计，备份技巧大公开

GHOST教程：系统备份和还原，小白也能变成高手！

Linux备份与恢复必修课：SWF文件安全策略从入门到精通

Exploring the Finest Accommodations: A Comprehensive Guide to Ruston LA Hotels

The Enchanting Experience of ScaliniTella NYC: A Culinary Gem in the Heart of Manhattan

Exploring the Exquisite Aloft Chicago O'Hare: A Blend of Modern Luxury and Convenience

A Culinary Journey: Discovering the Finest Dining Experiences in Waco, TX

A Culinary Journey: Discovering the Finest Dining Experiences in Athens, GA

电脑设备管理器在哪里？一次让我抓狂又兴奋的寻找经历

与GWX的持久战：一段关于Windows10升级弹窗的私人记忆

以管理员身份运行：那些年我们追过的权限与踩过的坑

这份完整版的Python全套学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【 `保证100%免费` 】