首页编程正文内容

qq群警告代码_教你用python爬取自己加入的QQ群成员名单

编程

更新时间：2026-04-04 02:06:15 120

admin 管理员组

文章数量: 1184232

本次实验环境：

操作系统：Mac OS
开发语言：python 3.6

IDE：jupyter notebook（建议使用）
浏览器：Chrome（版本75.0.3770.100）

需要用到的库：selenium、bs4、time、datetime、pandas、os。

QQ群的主页为：https://qun.qq/member.html。如果想查阅群号为123456的主页，则在主页URL后面加上#gid=123456。即我们想爬取群号为123456的群成员，需要请求的URL为：https://qun.qq/member.html#gid=123456

如果正常登陆页面，第一步需要扫码登陆。如果在电脑端已经登陆过QQ的话，则可以通过选择相应的QQ用户进行登陆。登陆后，页面的架构可能会有两种：一种是无群成员积分等级的，如下所示：

另外，一种有群成员积分等级的：

对于两种不同的架构，代码细节上有点出入。不过在本次实验中会识别出是否有群成员积分等级，再获取字段数据。

程序会先创建一个文件夹，用于存放数据集。文件夹命令方式：dataset + yyyymmdd（本日日期）。如果文件夹已存在，则放弃创建。

爬虫开始时，先用selenium模拟打开浏览器，现在selenium为3.x版本，需要下载相应的插件才能启动，否则会报错。对于Chrome浏览器，插件下载地址：

ChromeDriver Mirrornpm.taobao

对于火狐的话：

https://github/mozilla/geckodriver/releases下载/github

下载的时候必须选择与自己浏览器版本相照应的插件版本。

下载完成后解压，并把解压内容添加到python环境变量中去，又或者复制到浏览器安装目录文件中，又或者在代码允许selenium的时候制定插件路径（本次实验中使用的方法）。

代码运行后，会自动弹出新的浏览器，扫码或者点击登陆后，只能展示前面20个左右的群成员名单，需要不停下拉到底部，才能加载到完整的名单信息。在这里通过代码实现。

获取到完整的页面信息后，用BeautifulSoup进行提取数据，并用pandas汇成表格，保存到本地。

具体代码如下（请重点留意代码注释，涉及很多细节。甚至对于不同的操作系统、浏览器也有提醒）：

from selenium import webdriver
from bs4 import BeautifulSoup
import time
import datetime
import os
import pandas as pd

def save_data(driver):
    res = driver.page_source        # 获取源码
    driver.quit()                   # 关闭浏览器
    soup = BeautifulSoup(res,"lxml")
    html = soup.select("td")
    
    ## 先用第2、3 个成员判断一下有无 <群标签>字段
    age_2 = html[ 2 * 10 + 6].text.replace("t", "").replace("n", "")             ## Q龄
    age_3 = html[ 2 * 10 + 6].text.replace("t", "").replace("n", "")             ## Q龄
    
    data = []
    if "年" in age_2 and "年" in age_3:  ## 说明无<群标签>
        for i in range(5000):     ## 每个群最大5000人
            try:
                item = []
                for j in range(2,9):
                    lineArr = html[ i*10 + j].text.replace("t", "").replace("n", "")
                    item.append(lineArr)  ## 添加每个成员的信息，
                data.append(item)
            except:
                break
                
        cols = ['群成员', '群名片', 'QQ号', '性别', 'Q龄', '入群时间',  '最后发言时间']
        df = pd.DataFrame(data = data,  columns = cols)
                
    if "年" not in age_2 or "年" not in age_3:  ## 说明有<群标签>
        for i in range(5000):     ## 每个群最大5000人
            try:
                item = []
                for j in range(2,10):
                    lineArr = html[ i*11 + j].text.replace("t", "").replace("n", "")
                    item.append(lineArr)  ## 添加每个成员的信息，
                data.append(item)
            except:
                break
            
        cols = ['群成员', '群名片', 'QQ号', '性别', 'Q龄', '入群时间', '等级积分', '最后发言时间']
        df = pd.DataFrame(data = data,  columns = cols)
     
    ## 文件命令方式：路径path：./dataset_yyyymmdd/ 
    ##             文件名name：群号 + .csv
    df.to_csv("./dataset_" + now[:8] + "/"  +  group_id + '.csv', 
         encoding = 'utf-8', 
         index = None)
    
    return df


def scroll_foot(driver):
    '''
    下拉界面
    '''
    js="var q=document.documentElement.scrollTop=100000"
    return driver.execute_script(js)
    
now = datetime.datetime.today().strftime("%Y%m%d")
try:  ## 创建一个文件夹，用于存放数据集。文件夹命令方式：dataset + yyyymmdd（本日日期）
    file = os.mkdir("dataset_" + now)
except: ## 如果文件夹已存在，则放弃创建
    pass

group_id = '189200265'   ## 需要爬取的群号
url = 'https://qun.qq/member.html#gid={}'.format(group_id)

driver = webdriver.Chrome(executable_path = '/Users/apricity/Desktop/chromedriver') # 手动输入插件路径
# driver = webdriver.Firefox() ## 如果是火狐浏览器可以用这行代码替换掉上面的
driver.get(url=url)

## 允许完上面代码后请确认登陆了再运行下面程序
## 可以利用time.sleep 给自己x秒内登陆完成后再自动执行下面程序
time.sleep(10)

max_n = 0
while max_n < len(driver.page_source):
    max_n = len(driver.page_source)
    scroll_foot(driver)
    time.sleep(2.5) ## 每2.5秒下拉一次刷新名单，直至刷新不到新名单位置
    
df = save_data(driver) ## 保存本地数据
df.head()

以下是本人随便抽了一个群进行爬取的结果展示：

完整代码操作流程视频：

https://www.zhihu/video/1127891777956483072

本文标签：教你用成员名单代码 QQ python

版权声明：本文标题：qq群警告代码_教你用python爬取自己加入的QQ群成员名单内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.roclinux.cn/b/1755008328a3059772.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

发表评论

全部评论 0

暂无评论

Linux大棚 – 不忘初心的技术博客，浮躁时代的安静角落

qq群警告代码_教你用python爬取自己加入的QQ群成员名单

更多相关文章

python用浏览器打开网页的两种方式

深入解析当前页面脚本发生错误的成因与应对策略

从请求到执行：如何让ASPX模式窗口接受并运行你的代码

Windows NT2000XP环境下，无需驱动实现Ring0级代码的秘密武器

遇到代码43，电脑不高兴了？用驱动人生的妙招，轻松恢复你的好心情

Win7下的Steam用户，如何顺利打开社区与商店？这里有个小秘方！

让你的视觉体验更上一层楼 —— Adobe Flash Player中的图片预览大法

小白也能快速掌握的Excel操作秘技——自动换行篇

告别手动操作：利用POI让Excel自动换行变得简单

解锁编程技巧：一步到位，实现JS Ob混淆的还原艺术

Office Word 出现神秘BUG(代码0xc004c060)，我们教你轻松搞定！

从入门到精通：详解CSS如何构建有创意的斜线表格设计！

VSCode进阶秘技：一招解决代码复制粘贴烦恼，工作效率翻倍！

Steam错误代码-118让你头痛？试试这5个解决技巧！

Steam购物遇到118？新手也能轻松应对，攻略分享！

Win7下的Steam体验卡顿？社区与商店无法打开？解决攻略在这里！

电脑出现错误代码:-118是什么情况，解决错误代码:-118的方法

AxShockwaveFlashObjects 和 ShockwaveFlashObjects 这两个组件，但是Visual Studio无法找到它们_shockwave flash object

Unity通过shader实现烟雾遮罩效果_unity3d amplify shader editor 烟雾特效问题

Project Oberon 2013：如何利用Flash中心打造专业动画

发表评论

推荐文章

升级你的电脑安全！COMODO互联网安全5.0，多语言版本，全面保护你的设备！

常见蓝屏解决办法_reference by pointer

拆机小白的联想小新I1000内存升级及机械硬盘更换固态硬盘过程_联想小新v1000升级方案

个人认为斐讯K2最好的固件以及斐讯K2 WIFI中继指南_斐讯k2固件

上古卷轴5缺少X3DAudio1_7.dll问题解决！找不到x3daudio1_7.dll怎么解决？_上古卷轴找不到x3daudio1-7.dll

热门文章

解决Word和WPS只能在安全模式下使用的痛点，轻松开启全部功能！

HTML Meta标签详解

API、SDK、DLL有什么用?_sdk和dll区别

几种主板BIOS报警声音的含义_技嘉主板报警声大全

华为路由器设置指南

为什么IP地址一般是192.168开头

Comfyui释放GPU的显存_comfyui 释放显存

webview 不显示图片_webui 图片信息 不显示

WiFi手机可以连接，电脑上也能连接，可以微信聊天，但是不能浏览器上网怎么解决？_把手机wifi上的dns输到电脑上可以用吗

.NET framework 3.5的离线安装_离线安装netframework3.5

最新文章

一文教会你AIX系统备份：mksysb实用指南

SWF文件备份失败？这些步骤让你轻松搞定

Win10系统备份轻松搞定：掌握captureimage命令的关键技巧

Linux系统安全小贴士：掌握备份与恢复，安心每一天

省时省心！三步完成电脑系统高效备份！

Ubuntu系统维护秘籍：备份步骤详解，保护你的劳动成果！

Linux系统不哭：高效备份与快速恢复方案

Ubuntu系统安全大计，备份技巧大公开

GHOST教程：系统备份和还原，小白也能变成高手！

Linux备份与恢复必修课：SWF文件安全策略从入门到精通

Exploring the Finest Accommodations: A Comprehensive Guide to Ruston LA Hotels

The Enchanting Experience of ScaliniTella NYC: A Culinary Gem in the Heart of Manhattan

Exploring the Exquisite Aloft Chicago O'Hare: A Blend of Modern Luxury and Convenience

A Culinary Journey: Discovering the Finest Dining Experiences in Waco, TX

A Culinary Journey: Discovering the Finest Dining Experiences in Athens, GA

电脑设备管理器在哪里？一次让我抓狂又兴奋的寻找经历

与GWX的持久战：一段关于Windows10升级弹窗的私人记忆

以管理员身份运行：那些年我们追过的权限与踩过的坑

webview 不显示图片_webui 图片信息不显示