首页编程正文内容

盘点66个Pandas函数

编程

更新时间：2026-04-04 19:13:47 21

admin 管理员组

文章数量: 1184232

2024年3月8日发(作者：谷歌浏览器对富文本编辑器)

盘点66个Pandas函数，轻松搞定“数据清洗”！

今天我们来盘点66个Pandas函数合集，包括数据预览、数值数据操作、文本数据操作、行/列操作等等，涉及“数据清洗”的方方面面。

Pandas 是基于NumPy的一种工具，该工具是为解决数据分析任务而创建的。它提供了大量能使我们快速便捷地处理数据的函数和方法。

数据预览

对于探索性数据分析来说，做数据分析前需要先看一下数据的总体概况。info()方法用来查看数据集信息，describe()方法将返回描述性统计信息，这两个函数大家应该都很熟悉了。

describe方法默认只给出数值型变量的常用统计量，要想对DataFrame中的每个变量进行汇总统计，可以将其中的参数include设为all。

head()方法和tail() 方法则是分别显示数据集的前n和后n行数据。如果想要随机看N行的数据，可以使用sample()方法。

(3)

输出：

如果要检查数据中各列的数据类型，可以使用.dtypes；如果想要值查看所有的列名，可以使用.columns。

输出：

Index(['日期', '销量'], dtype='object')

前面介绍的函数主要是读取数据集的数据信息，想要获得数据集的大小（长宽），可以使用.shape方法。

输出：

(5, 2)

另外，len()可以查看某列的行数，count()则可以查看该列值的有效个数，不包含无效值（Nan）。

缺失值与重复值

Pandas清洗数据时，判断缺失值一般采用isnull()方法。此外，isnull().any()会判断哪些”列”存在缺失值，isnull().sum()用于将列中为空的个数统计出来。

().any()

输出：

日期 False

销量 True

dtype: bool

发现“销量”这列存在缺失值后，处理办法要么删除dropna() ，要么填充fillna()。

(50)

输出：

Pandas清洗数据时，判断重复值一般采用duplicated()方法。如果想要直接删除重复值，可以使用drop_duplicates() 方法。此处较为常见，不再过多演示。

数值数据操作

我们在处理数据的时候，会遇到批量替换的情况，replace()是很好的解决方法。它既支持替换全部或者某一行，也支持替换指定的某个或指定的多个数值（用字典的形式），还可以使用正则表达式替换。

df["编号"].replace(r'BA.$', value='NEW', regex=True, inplace = True)

输出：

df["迟到天数"] = df["迟到天数"].clip(0,31)

唯一值，unique()是以数组形式返回列的所有唯一值，而nunique()返回的是唯一值的个数。

df["gender"].unique()

df["gender"].nunique()

输出：

在数值数据操作中，apply()函数的功能是将一个自定义函数作用于DataFrame的行或者列；applymap()函数的功能是将自定义函数作用于DataFrame的所有元素。他们通常也与匿名函数lambda一起使用。

df["数量"].apply(lambda x: x+1)

输出：

文本数据操作

在对文本型的数据进行处理时，我们会大量应用字符串的函数，来实现对一列文本数据进行操作[2]。

函数方法

cat

contains

startswith/endswith

get

len

upper、lower

pad/center

repeat

slice_replace

split

strip、rstrip、lstrip

用法释义

字符串的拼接

判断某个字符串是否包含判断某个字符串是否以...获取指定位置的字符计算字符串长度英文大小写转换在字符串的左边、右边或左右两重复字符串几次使用给定的字符串，替换指定分割字符串，将一列扩展去除空白符、换行

函数方法

findall

extract、extractall

举例：

(2, "姓名",

df["姓"].(df["名"], sep=""))

输出：

用法释义

利用正则表达式，去字符串中匹配，接受正则表达式，抽取匹配的字符串

df["手机号码"] = df["手机号码"]._replace(3,7,"*"*4)

输出：

df["地址"].t("([u4e00-u9fa5]+)")

输出：

行/列操作

数据清洗时，会将带空值的行删除，此时DataFrame或Series类型的数据不再是连续的索引，可以使用reset_index()重置索引。

_index(drop=True)

输出：

rename()重命名用于更改行列的标签，即行列的索引。可以传入一个字典或者一个函数。在数据预处理中，比较常用。

(columns={'mark': 'sell'}, inplace=True)

输出：

行列转置，我们可以使用T属性获得转置后的DataFrame。

df.T

输出：

删除行列，可以使用drop()。

(columns=["mark"])

输出：

数据分析师在进行数据处理时经常会遇到长宽表互转的情况，这也是一道常见的数据分析面试题。

melt()方法可以将宽表转长表，即表格型数据转为树形数据。

(id_vars="姓名", var_name="科目", value_name="成绩")

输出：

pivot()方法可以将长表转宽表，即树形数据转为表格型数据。

(index='姓名', columns='科目', values='成绩')

输出：

pivot()其实就是用 set_index()创建层次化索引，再用unstack()重塑

_index(['姓名','科目']).unstack('科目')

数据分组与数据透视表更是一个常见的需求，groupby()方法可以用于数据分组。

y("科目").mean()

由于pivot_table()数据透视表的参数比较多，就不再使用案例来演示了，具体用法可参考下图。

数据筛选

如果是筛选行列的话，通常有以下几种方法：

有时我们需要按条件选择部分列、部分行，一般常用的方法有：

操作

选择列

按索引选择行

按数字索引选择行

使用切片选择行

用表达式筛选行

[3]语法

df[col]

[label]

[loc]

df[:5]

df[bool_vec]

返回结果

Series

DataFrame

除此以外，还有很多方法/函数可以用于“数据筛选”。

如果想直接筛选包含特定字符的字符串，可以使用contains()这个方法。

例如，筛选户籍地址列中包含“黑龙江”这个字符的所有行。

df[df["户籍地址"].ns("黑龙江")]

query()查询方法也可以用来筛选数据，比如查询“语文”成绩大于“数学”成绩的行记录。

("语文 > 英语")

输出：

select_dtypes()方法可用于筛选某些数据类型的变量或列。举例，我们仅选择具有数据类型'int64'的列。

_dtypes("int64")

输出：

isin()接受一个列表，判断该列中元素是否在列表中。

name_list = ["张三", "李四"]

df[df["姓名"].isin(name_list)]

输出：

数值数据统计运算

函数方法

count

sum

mean

median

mode

max

min

std

var

quantile

skew

用法释义

非NaN数据项计数

求和

平均值

中位数

众数

最大值

最小值

标准差

方差

分位数

返回偏态系数

kurt 返回峰态系数

在对数值型的数据进行统计运算时，除了有算术运算、比较预算还有各种常见的汇总统计运行函数，具体如下表所示。

举例：

df["语文"].max()

输出：

155

最后，再说一个比较常用的统计运算函数——累加cumsum()。

df["累计销量"] = df["销量"].cumsum()

输出：

注：cumprod()方法是指连乘，用于与连加一样，但使用频率较少。

今天我们盘点了66个Pandas函数合集，但实际还有很多函数在本文中没有介绍，包括时间序列、数据表的拼接与连接等等。此外，那些类似describe()这种大家非常熟悉的方法都省去了代码演示。如果大家有在工作生活中进行“数据清洗”非常有用的Pandas函数，也可以在评论区交流。

本文标签：数据函数字符串方法使用

版权声明：本文标题：盘点66个Pandas函数内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.roclinux.cn/b/1709907241a549729.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

发表评论

全部评论 0

暂无评论

Linux大棚 – 不忘初心的技术博客，浮躁时代的安静角落

盘点66个Pandas函数

更多相关文章

文件vcruntime140.dll找不到该怎么办？分析解决vcruntime140.dll

移动硬盘无法访问，移动硬盘突然读不出来？把这5个方法收藏起来！_移动硬盘灯亮但不读取无法识别

CPU使用率飙升至100%的诊断与解决方案_cpu飙升原因排查

笔记本只能指纹打开，密码忘记的解决办法_win10用指纹登录后,忘记登录密码怎么办

深度学习驱动的穿越火线：基于YOLO的目标检测_游戏 目标检测

MSI详解_msi全称

DiskGenius靠谱吗？_diskgenius坏道检测准确吗

重新设置无线路由器密码的方法_如何修改wifi密码 csdn

使用jQuery实现动态添加和删除文本框_jq 怎么给每张图片加上删除功能的边框

使用DWM实现Aero Glass效果_dwmiscompositionenabled

如何释放并重新获得ip地址呢？_ip释放 ip重新获取

incite自动标引_知网引用格式incite

企业IT运维实战：批量修改192.168.0.1密码的自动化方案

使用Genymotion时无法虚拟机文件_genymotion虚拟机failed to download file

使用MultCloud加速谷歌云盘数据

电脑主机后置音频插孔无声？还得Realtek高清晰音频管理器调教_电脑后置音频接口没声音

正斜杠与反斜杠的使用差异

免费畅游ChinaNet：坊巷WIFI应用指南

解决360卸载之后遗留问题：windows defender无法开启_securityhealthservice启用

掌握WinPcap的两大法宝：wpcap.dll和Winpcap.lib，成就专业级网络工程师

发表评论

推荐文章

360卸载方法（最全面）

电脑品牌与驱动大全

平板电脑Viewpad10安装win7与Android双系统_viewsonic平板电脑装什么系统

电脑没有声音，任务栏声音图标不见了，怎么办？_工具栏声音图标不见了

重装系统流程之联想小新Air14 2020锐龙版_联想小新air142020系统重装

热门文章

小白也能懂：mfc71chs.dll问题大揭秘，轻松搞定电脑卡顿

Mac设备上的LVSecurityAgent到底怎么删？管理员口令问题解决法

Win11自动关机困扰？一文帮你轻松解决

解决PyInstaller vcruntime140.dll没有被指定在Windows上运行_python打包中怎么将vcruntime140.dll打包进去

实现Win7 Aero弹出窗口效果的完整代码项目

斐讯K2路由器固件升级与刷机指南

Windows系统实用命令_清除系统垃圾的命令

网站打不开的原因及解决办法_1024打不开

腾讯WiFi共享精灵去哪儿了？寻找失散神器的冒险记！

XP 速成：笔记本瞬间变无线路由，让每个角落都能连上网络！

最新文章

一文教会你AIX系统备份：mksysb实用指南

SWF文件备份失败？这些步骤让你轻松搞定

Win10系统备份轻松搞定：掌握captureimage命令的关键技巧

Linux系统安全小贴士：掌握备份与恢复，安心每一天

省时省心！三步完成电脑系统高效备份！

Ubuntu系统维护秘籍：备份步骤详解，保护你的劳动成果！

Linux系统不哭：高效备份与快速恢复方案

Ubuntu系统安全大计，备份技巧大公开

GHOST教程：系统备份和还原，小白也能变成高手！

Linux备份与恢复必修课：SWF文件安全策略从入门到精通

Exploring the Finest Accommodations: A Comprehensive Guide to Ruston LA Hotels

The Enchanting Experience of ScaliniTella NYC: A Culinary Gem in the Heart of Manhattan

Exploring the Exquisite Aloft Chicago O'Hare: A Blend of Modern Luxury and Convenience

A Culinary Journey: Discovering the Finest Dining Experiences in Waco, TX

A Culinary Journey: Discovering the Finest Dining Experiences in Athens, GA

电脑设备管理器在哪里？一次让我抓狂又兴奋的寻找经历

与GWX的持久战：一段关于Windows10升级弹窗的私人记忆

以管理员身份运行：那些年我们追过的权限与踩过的坑

深度学习驱动的穿越火线：基于YOLO的目标检测_游戏目标检测