admin 管理员组

文章数量: 1184232

文章目录

    • 一、RPA(机器人流程自动化)简介
    • 二、所需要的工具
    • 三、获取XPath的方法:
    • 四、RPA获取数据

一、RPA(机器人流程自动化)简介

RPA机器人的工作方式,是通过录制、配置脚本或利用AI能力,来模拟人类与软件应用程序的交互。它能“看到”屏幕上的内容,能“点击”按钮,能“录入”数据,能“复制粘贴”信息,就像一个真正的人在操作一样。 RPA旨在赋能而非取代,通过低成本、高效率的自动化,将员工从“数字苦力”中解放,投身更高价值的工作。它不仅是效率工具,更是企业优化运营、加速数字化转型的战略支点。
其交互的层次主要分为三种:

  • 屏幕抓取:识别并提取用户界面上的数据。
  • 触发器驱动:监听特定事件,如收到一封特定格式的邮件、某个文件被创建等,然后触发自动化流程。
  • 插件与API集成:对于某些主流软件,RPA平台提供了更底层的连接方式,以提高稳定性和效率。

二、所需要的工具

所需要用到的工具是PyCharm,需要安装教程可以点击下方链接进行安装

链接: link

三、获取XPath的方法:

1. 打开开发者工具: 按住F12或者Fn+F12(笔记本电脑键盘可能需要用到这个按键)或者在百度网页单击鼠标右键,点击检查。
2.打开元素选取模式: 点击下图中左上角带箭头的按键,将其点亮

点亮之后的效果:

3.复制XPath:

  • 获取单个元素XPath:点亮之后将鼠标移动到要复制元素处,比如复制context1的XPath,操作为热搜下“以开放汇合作之力”文字处,点击该文字。

此时在开发者工具中会将点击的元素的网页代码显示为蓝色,再将鼠标移动至显示为蓝色的网页代码处,单击鼠标右键,点击Copy(复制)、点击Copy XPath(复制XPath)。再将复制的XPath放入到代码中即可。

  • 获取多个元素XPath: 下载XPath Helper可以看一下其他播客分享的资料:
    链接:link

在XPath Helper插件中可以更加方便我们获取多个元素的XPath。

四、RPA获取数据

  • 第一步 导入PRA模块: 下载自动化模块资源,按住Win+R,输入cmd,在控制面板中输入模块资源下载指令:
    pip install DrissionPage -i https://mirrors.aliyun/pypi/simple/
  • 第二步 代码书写:
# 导入DrissionPage库中的Chromium模块
# DrissionPage是一个基于Python的网页自动化测试工具
# Chromium模块用于控制基于Chromium内核的浏览器(如Chrome、Edge等)
from DrissionPage import Chromium

# 对谷歌浏览器进行初始化
page = Chromium()

# 获取标签页对象
tab = page.get_tab()

# 直接通过get方法访问网页,timeout设置超时时间
tab.get("https://www.baidu",  timeout=10)

# 通过XPath定位到热搜榜第一个热搜词的文本内容
# 使用tab对象的ele方法获取单个元素
context1 = tab.ele('xpath://*[@id="hotsearch-content-wrapper"]/li[1]/a/span[2]')
# 打印第一个热搜词的文本内容
# .text:输出获得的xpath的tab网页路径的内容
print(context1.text)

# 打印30个"-"作为分隔线
print("-"*30)

# 通过XPath定位到热搜榜所有热搜词的文本内容
# 使用tab对象的eles方法获取多个元素
context2 = tab.eles('xpath://*[@id="hotsearch-content-wrapper"]/li/a/span[2]')
# eles方法获取的多个元素的xpath是以列表的形式赋值给context2
# 需要用循环语句顺序输出所获得的xpath的tab网页路径
for i in context2:
    # .text:输出获得的xpath的tab网页路径的内容
    print(i.text)

本文标签: 实战 完整 网页 指南 数据