admin 管理员组

文章数量: 1184232


2024年1月23日发(作者:css3中transition属性)

爬虫python入门

一、首先需要了解爬虫的原理

爬虫就是一个自动化数据采集工作,你只需要告诉它需要采取哪些数据,给它一个url,就可以自动的抓取数据。其背后的基本原理就是爬虫模拟浏览器向目标服务器发送http请求,然后目标服务器返回响应结果,爬虫客户端收到响应并从中提取数据,再进行数据清洗、数据存储工作。

二、爬虫的基本流程

爬虫的基本流程与访问浏览器类似,就是建立一个http请求,当用户输入一个url之后,点击确认,客户端会与服务器建立连接,服务器收到请求之后,会从数据库中拿到响应的数据并且封装为一个http响应,将响应的结果返回给浏览器,浏览器对响应的数据进行解析、提取、渲染并且最终展示为页面。

三、爬虫的场景分类

1、通用爬虫:抓取系统的重要组成部分,抓取的是一整个页面,这种爬虫的方式相对简单,只需要四个步骤,指定url、发送请求、获取数据、持久化存储。

# 1、指定url

request_url = url

# 2、发送请求

responce = (url = request_url)

# 3、获取数据

responce_data =

# 4、持久化存储

with open('./','w',encoding='utf-8') as fp:

(responce_data)

print("爬虫结束")

2、聚焦爬虫:建立在通用爬虫的基础之上,抓取的是页面中的特定的局部页面。需要五个步骤,步骤与通用爬虫类似,只是在获取数据之后,需要对数据进行过滤、清洗。网页的数据解析器有:(1)、正则表达式。(2)、。(3)、beautifulsoup。(4)、lxml。


本文标签: 爬虫 数据 响应 需要 浏览器