首页编程正文内容

使用Schedule定时采集知乎热榜数据

编程

更新时间：2026-04-04 00:44:22 122

admin 管理员组

文章数量: 1184232

使用Schedule定时采集知乎热榜数据

在日常编程和系统管理中，经常会遇到需要定期执行某些任务的情况。Python 中的 Schedule 库为我们提供了一个强大的工具，可以轻松地实现任务调度和自动化。本文通过定时采集知乎热搜数据的实例，简单介绍下Schedule库的使用方法。

相关库简介

Schedule 是一款轻量级定时任务库，易用无配置。

相较于其他定时库的优缺点，可以参考 Python定时任务库对比 ——schedule vs. Celery vs. APScheduler。

简单总结

库	大小	优点	使用场景
Schedule	轻量级	易用无配置	简单任务
Celery	重量级	①任务队列 ②分布式	任务队列
APScheduler	相对重量级	①动态增删定时任务并持久化 ②支持多种存储后端 ③集成框架多，用户广	通用

安装Schedule库

pip install Schedule

简单示例

演示时设置运行3次退出，每次间隔1分钟。使用过程中，大家根据需要设置即可，一般作服务端时不设置。

count = 0
def work():
    global count
    count += 1
    author = 'AI拾贝'
    time_mow = time.strftime("%Y-%m-%d %H:%M:%S", time.localtime())
    print(f'{time_mow} -- {author}') 
    
schedule.every(1).minutes.do(work)  # 每一分钟执行一次
while True:
    if count > 2:
        schedule.clear()
        break
    schedule.run_pending()
    time.sleep(1)

结果输出：
2024-07-22 22:23:00 – AI拾贝
2024-07-22 22:24:00 – AI拾贝
2024-07-22 22:25:01 – AI拾贝

其他定时周期：
每1分钟执行一次：
schedule.every(1).minutes.do(work)
每小时执行一次任务:
schedule.every().hour.do(work)
每天在什么时间点执行一次任务:
schedule.every().day.at(‘10:30’).do(work)
每10-20分钟(随机)执行一次任务:
schedule.every(10).to(20).minutes.do(work)
每周一执行一次任务:
schedule.every().monday.do(work)
每周一什么时间点执行一次任务:
schedule.every().monday.at(‘09:30’).do(work)

代码实现

导入相关库

# 导入相关库
import time
import schedule
import json
import requests
import pandas as pd

数据请求

# 知乎热榜url
zhihu_url = 'https://api.zhihu/topstory/hot-list?limit=10&reverse_order=0'
# 伪装请求头
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36 QIHU 360SE'}

解析数据并保存为csv文件

# 是否加表头
zhihu_csv_header = True
# 计次
zhihu_count = 0
def getzhihudata(url, headers):
    r = requests.get(url, headers=headers)
    r.raise_for_status()
    r.encoding = 'utf-8-sig'  # 确保使用UTF-8编码
    datas = json.loads(r.text)['data']
    allinfo = []
    time_mow = time.strftime("%Y-%m-%d %H:%M", time.localtime())
    print(time_mow)
    for indx,item in enumerate(datas):
        title = item['target']['title']
        heat = item['detail_text'].split(' ')[0]
        answer_count = item['target']['answer_count']
        follower_count = item['target']['follower_count']
        href = item['target']['url']
        info = [time_mow, indx+1, title, heat, answer_count, follower_count, href]
        allinfo.append(info)
    # 仅首次加表头
    global zhihu_csv_header
    df = pd.DataFrame(allinfo,columns=['时间','排名','标题','热度(万)','回答数','关注数','链接'])
    print(df.head())
    df.to_csv('zhihu_hot_datas.csv', mode='a+', index=False, header=zhihu_csv_header, encoding='utf-8-sig')
    zhihu_csv_header = False
    global zhihu_count
    zhihu_count += 1    
getzhihudata(zhihu_url, headers)

设置定时任务

作为演示这里设置每5分钟执行一次爬取任务，爬取3次，大家在本地运行时可以设置10分钟或更长时间采集一次，循环次数设置30次左右，这样数据量不至于过多或过少。

# 每5分钟执行一次爬取任务:
schedule.every(5).minutes.do(getzhihudata,zhihu_url,headers)
while True:
    if zhihu_count > 2:
        schedule.clear()
        break
    schedule.run_pending()
    time.sleep(1)

结果展示

循环爬取结果示例

保存文件示例

获取到这些实时数据，可以通过时间序列图——动态轮播图来展示下实时热榜。下期文章会进行简单介绍。

推荐阅读

【可视化】用pyecharts绘制我国人口分布
【可视化】软科2024中国大学可视化分析
【爬虫】2024中国大学排行榜爬取

欢迎关注我的公众号“AI拾贝”，原创技术文章第一时间推送。后台发送zhihu，自动回复源码和数据。

本文标签：数据 schedule 知乎热榜

版权声明：本文标题：使用Schedule定时采集知乎热榜数据内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.roclinux.cn/b/1754999896a3059467.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

深入研究CR2图片：解析ifd0区域的秘密

编程

1月前

首先是8个字节的文件头。 CR2的前2个字节是"II"，代表INTEL格式的存储顺序，即低字节在前，高字节在后。接下来是固定的2个字节：0x2a00。最后的4个字节的整数是指向第一个IFD（I

从失败到成功：RAW文件系统的恢复策略与实践指南

技术日记

1月前

初识文件系统变RAW文件系统变RAW，这一状况如同数据世界的“神秘黑洞”，让众多用户头疼不已。简单来说，当存储设备的文件系统变为RAW格式时，操作系统无法识别其原有的文件系统类型，导致我们无法正常访问其中的数据。原本井然

进阶指南：让DBF查看器成为你数据分析的好帮手

编程

1月前

简介：DBF文件是一种早期的桌面数据库文件格式，广泛应用于如FoxPro等系统。DBF查看器是一款工具，使用户无需依赖原始数据库软件即可打开和浏览DBF文件内容。它具备多种功能，包括文件打开、浏览记录、字段信息查看、搜索与过滤、编辑数

简单实用的文件夹防护技巧：用加密为数据上一道“保险锁”

技术日记

1月前

在使用电脑的过程中，我们会使用文件夹来管理各种文件，避免电脑数据混乱。而为了保护文件夹的数据安全，我们需要加密保护文件夹。下面我们就来了解一下文件夹加密的方法。电脑文件夹加密方法EFS是微软提供的数据加密方式，

嵌入式系统通讯指南：从IIC到SPI，一文带你领略数据传输的魅力

编程

1月前

本文简单的描述了在实际应用中会碰到的一些总线协议，让各位读者对实际系统中的总线有个概念上的理解。一、I2C I2C(Inter － Integrated Circuit)

当Linux分区变坏蛋？TestDisk助你快速找回丢失的数据！

技术日记

1月前

简介：Linux分区表是存储磁盘分区信息的关键部分，一旦损坏会导致数据丢失。本文介绍testdisk这一开源工具，它支持MBR和GPT等多种分区格式，适用于恢复丢失分区、重建启动扇区，甚至挽救数据。文中详细说明了如何安装和使用test

被遗忘的文件还能找到吗？掌握这三个步骤，让你的硬盘重见光芒！

编程

1月前

“每个人都有手滑失误的瞬间，而我的这个瞬间恰好发生了清空回收站。回收站清空后我的文件还能够找回来吗？请大家给我支支招，非常感谢。” 回收站是每一部电脑都会有的一个系统文件夹，它是电脑删除文件数据的“审判所”，除了文件被执行了永

Hex和Bin的奇妙旅程：实用转换技巧分享

技术日记

1月前

大家好，我是学电子的小白白。熟悉单片机开发的朋友，应该经常见到*.hex后缀的文件，它是单片机和嵌入式工程编译输出的一种常见的目标文件格式（比如keil就能编译输出hex文件），通过烧写工具把它下载到单片机中，程序就能在芯片

Hex与Bin的奇妙之旅：转换技巧全揭秘

技术日记

1月前

大家好，我是学电子的小白白。熟悉单片机开发的朋友，应该经常见到*.hex后缀的文件，它是单片机和嵌入式工程编译输出的一种常见的目标文件格式（比如keil就能编译输出hex文件），通过烧写工具把它下载到单片机中，程序就能在芯片

一文掌握：利用Windows剪贴板与clipbrd工具提升工作生产力的实战指南

技术日记

1月前

简介：Windows剪贴板是操作系统中用于不同程序间传递信息的核心组件。本文将介绍其基本概念、格式多样性、clipbrd工具的功能及使用方法，以及HTML FORMAT与剪贴板的交互。剪贴板工具对于开发者、故障排查和用户体验研究等场景

XMP数据处理指南：探索Adobe Flash中心的SWF文件基本架构

编程

26天前

012-XMP数据处理学习目标通过本章学习，你将掌握：XMP标准理解 XMP元数据架构和结构 XMP命名空间和属性定义 XMP与其他元数据

ASF文件格式揭秘：掌握与Adobe Flash Player的完美合作

技术日记

23天前

了解ASF文件格式对于开发人员在处理多媒体文件时非常重要。ASF代表"Advanced Systems Format"，是一种由Microsoft开发的多媒体容器格式，用于存储和传输音频和视频数据。在本指南中，我们将深入

电脑数据丢失不慌张：EasyRecovery快速恢复你的文件

编程

21天前

在我们日常清理电脑时，有时会意外删除一些有用的文件，比如重要文件、照片等。这时就需要使用数据恢复软件尝试恢复数据。 EasyRecovery是一款强大有效实现数据恢复的软件，软件占用空间小，就算你是XP系统也能轻松驾驭。界面简

SayRecy数据恢复，轻松解救你的电脑数据危机！

编程

20天前

在我们日常清理电脑时，有时会意外删除一些有用的文件，比如重要文件、照片等。这时就需要使用数据恢复软件尝试恢复数据。 EasyRecovery是一款强大有效实现数据恢复的软件，软件占用空间小，就算你是XP系统也能轻松驾驭。界面简

Mac小白也能学会：深度清理系统垃圾，加速效率

技术日记

19天前

在日常使用苹果电脑（Mac）时，系统和应用会产生各种缓存文件来加速操作，但久而久之，这些文件会占用宝贵的存储空间，甚至引发系统卡顿或异常。如何高效地清理Mac的缓存和垃圾文件，让电脑重新回归流畅？本文将为你详细介绍几种实用方法。

机械硬盘损坏，数据还能起死回生吗？揭秘数据恢复秘籍

编程

18天前

电脑硬盘坏了数据可以恢复吗？对于这种问题，还需要具体问题具体分析的，一般是可以恢复。硬盘损坏可以分为物理损坏和逻辑损坏两种情况： 1.逻辑损坏这通常是由于软件问题，如文件系统错误、病毒攻击、误删除、格式化等

Windows应用数据开发实战：Windows 8环境下轻松上手

编程

18天前

一、Application Data简介Applicaion Data相当于桌面应用的注册表，存储一些用户配置信息，如运行时状态，用户喜好等，需要注意的时，当卸载应用时，这些数据会被删除，所以不要存储重要数

掌握SWF文件，驾驭Adobe Flash Player的无限可能

编程

18天前

一、Application Data简介Applicaion Data相当于桌面应用的注册表，存储一些用户配置信息，如运行时状态，用户喜好等，需要注意的时，当卸载应用时，这些数据会被删除，所以不要存储重要数

Adobe Flash Player与SWF：一段从技术到应用的旅程

技术日记

18天前

一、Application Data简介Applicaion Data相当于桌面应用的注册表，存储一些用户配置信息，如运行时状态，用户喜好等，需要注意的时，当卸载应用时，这些数据会被删除，所以不要存储重要数

从零开始，I.MX6U上Linux的启动流程详解，助你顺利上手

编程

18天前

第九章I.MX6U启动方式详解 I.MX6U支持多种启动方式以及启动设备，比如可以从SDEMMC、NAND Flash、QSPI Flash等启动。用户可以根据实际情况，选择合适的启动设备。不同的启动方式其启动方式和启动要求

发表评论

全部评论 0

暂无评论

推荐文章

2024最值得购买的显卡：性能天梯评测

「破解组策略的神秘锁链：轻松让打印机驱动装上」

Android home键的控制_android 应用内禁止home键退出

电脑配置：电脑小白如何查看电脑配置_小黑窗口怎么查看电脑配置

斐讯K2路由器刷机教程

热门文章

最新文章