admin 管理员组文章数量: 1087652
实战讲解四种不同爬虫解析数据方法,必须掌握!
1
前言
爬虫解析数据有很多种,爬取不同的数据,返回的数据类型不一样,有html、json、xml、文本(字符串)等多种格式!
掌握这四种解析数据的方式,无论什么样的数据格式都可以轻松应对处理。
这四种方式分别是:1.xpath、2.bs4、3.json、4.正则。
下面以实战方式讲解这四种技术如何使用!!!
2
Xpath
1.请求数据
请求链接如下,以小说网站:新笔趣阁,为案例进行讲解
/
导入相应的库
import requests
from lxml import etree
开始请求数据
headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3947.100 Safari/537.36',}
url="/"
res = requests.get(url,headers=headers)
res.encoding = 'utf-8'
text = res.text
2.解析数据
比如我们要获取下面这些数据(小说名称)
分析网页标签
数据在class="l"-> ul ->li标签中
selector = etree.HTML(text)
list = selector.xpath('//*[@class="l"]/ul/li')
解析li中数据
可以看到,数据在li->span->a 标签中
for i in list:title = i.xpath('.//span/a/text()')href = i.xpath('.//span/a/@href')print(title)print(href)print("--------")
3
Bs4
1.请求数据
请求链接如下,同样以小说网站:新笔趣阁,为案例进行讲解
/
导入相应的库
import requests
from bs4 import BeautifulSoup
开始请求数据
headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3947.100 Safari/537.36',}
url="/"
res = requests.get(url,headers=headers)
res.encoding = 'utf-8'
text = res.text
2.解析数据
比如我们要获取下面这些数据(小说名称)
分析网页标签
可以看到,数据在span中(class="s2") 标签中
法一
###法一
list = soup.find_all(attrs={'class':'s2'})
for i in list:print(i.a.get_text())print(i.a.get("href"))print("--------")
print(len(list))
法二
####法二
# 获取所有的链接
all_link = [(link.a['href'], link.a.get_text()) for link in soup.find_all('li')]
for i in all_link:print(i)
4
json
1.请求数据
请求链接如下,获取ip定位,为案例进行讲解
=0113a13c88697dcea6a445584d535837&ip=123.123.123.123
导入相应的库
import requests
import json
开始请求数据
ip = "123.123.123.123"
url="=0113a13c88697dcea6a445584d535837&ip="+str(ip)
res = requests.get(url,headers=headers)
res.encoding = 'utf-8'
text = res.text
2.解析数据
比如我们要获取下面这些数据(省份和城市)
text = res.text
print(text)
##text不是json类型的话,则转为json类型
text = json.loads(text)
print("省份="+text['province']+",城市="+text['city'])
5
正则表达式
1.请求数据
请求链接如下,以小说网站:新笔趣阁,为案例进行讲解
/
导入相应的库
import requests
import re
开始请求数据
headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3947.100 Safari/537.36',}
url="/"
res = requests.get(url,headers=headers)
res.encoding = 'utf-8'
text = res.text
2.解析数据
比如我们要获取下面这些数据(小说名称)
分析网页html
可以看到,数据在li->span->a 标签中,a标签前有“《”,后有“》”
pattern = repile('《.*?》')
items = re.findall(pattern, text)for i in items:print(i)
6
总结
1.以实战方式讲解了四种不同解析数据的方式
2.讲解过程一步一步截图说明,方便小白入门学习!
3.本文干货满满,推荐收藏!收藏!收藏!
如果大家对本文代码源码感兴趣,扫码关注『Python爬虫数据分析挖掘』后台回复:四种解析 ,获取完整代码!
最后说一声:原创不易,求给个赞、在看、评论
------------- 推荐阅读 -------------
爬虫入门篇
1.今天只分享python、爬虫入门级学习资料
2.以某乎为实战案例,教你用Python爬取手机App数据
3.教你用python爬取『京东』商品数据,原来这么简单!
4.以『赘婿』为实战案例,手把手教会你用python爬取『爱奇艺』视频弹幕
5.python爬取44130条用户观影数据,分析挖掘用户与电影之间的隐藏信息!
6.基金这么赚钱!!编程实现基金从采集到分析通用模板!(白酒为例)
7.我爬取了爬虫岗位薪资,分析后发现爬虫真香
8.竟然如此简单!输入明星名字就可以直接爬取高清图片
9.pyhton爬取爱豆(李易峰)微博评论(附源码)
10.快手解析视频真实链接(爬取快手视频)
爬虫框架篇
1.以『B站』为实战案例!手把手教你掌握爬虫必备框架『Scrapy』
2.爬取1907条『课程学习』数据,分析哪类学习资源最受大学生青睐
爬虫反爬篇
1.爬虫遇到反爬机制怎么办? 看看我是如何解决的!
2.python实战破解『梨视频』反爬机制,轻松实现批量视频下载!
3.『异步反爬』别再说自己不会爬取『抖音』视频了!
可视化篇
1.爬取3w条『各种品牌』笔记本电脑数据,统计分析并进行可视化展示!真好看~
2.python爬取7w+『赘婿』弹幕,发现弹幕比剧还精彩!
3.爬取1907条『课程学习』数据,分析哪类学习资源最受大学生青睐
4.python爬取各类基金数据,以『动图可视化』方式展示基金的涨跌情况
5.python爬取『大年初一』热映电影,以『可视化及词云秀』方式带你了解热映电影
6.python爬取淘宝全部『螺蛳粉』数据,看看你真的了解螺蛳粉吗?
7.爬取淘宝热卖商品并可视化分析,看看大家都喜欢买什么!
8.王者荣耀白晶晶皮肤1小时销量突破千万!分析网友评论我发现了原因
9.分析各类基金近一年『日涨幅』流水线动态图!哭了,真是跌妈不认!
10.分析B站《送你一朵小红花》弹幕评论
11.我爬取了爬虫岗位薪资,分析后发现爬虫真香
12.python实现在线微博数据可视化
python工具篇
1.教你用python爬虫下载1w+『ppt模板』,再也不用付费去购买啦!
2.python爬取下载m3u8加密视频,原来这么简单!
3.详细实战教程!部署Flask网站+域名访问+免费https证书
4.花一天时间做了一个福利资源网站!免费分享给大家
5.python实现四种出行路线规划(公交、步行、驾车、骑行)
6.35行代码下载任意网页的图片
7.python窃取摄像头照片(摄像头拍照+邮箱发送+打包exe)
8.30行爬虫代码实现中英互译
9.教你搭建一个花卉识别系统(超级简单)
本文标签: 实战讲解四种不同爬虫解析数据方法,必须掌握!
版权声明:本文标题:实战讲解四种不同爬虫解析数据方法,必须掌握! 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.roclinux.cn/p/1700323318a396714.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论