admin 管理员组

文章数量: 1184232


2024年3月11日发(作者:medium height用法)

dataframe集合运算

1. 合并 (merge)。

合并可以将两个或更多的DataFrame按照指定的列或索引进行联接操

作。有几个常见的类型:

- 内连接 (inner join):只保留两个DataFrame中都有的行,删除

缺失值。

- 左连接 (left join):保留左边DataFrame中的所有行,同时将右

边DataFrame中与左边不配对的行填充缺失值。

- 右连接 (right join):保留右边DataFrame中的所有行,同时将

左边DataFrame中与右边不配对的行填充缺失值。

- 外连接 (outer join):将左连接和右连接的结果进行合并,保留

两个DataFrame中的所有行。

2. 连接 (concat)。

连接可以将两个或更多的DataFrame沿着某个轴上进行拼接操作。有

以下两种类型:

- 行连接 (axis=0):将多个DataFrame按照行的方向进行拼接。

- 列连接 (axis=1):将多个DataFrame按照列的方向进行拼接。

3. 去重 (drop_duplicate)。

去重可以将DataFrame中重复的行进行删除操作,使用方法为:

- _duplicates(subset=None, keep='first',

inplace=False)。

其中:

- subset:用于指定去重的子集,如果不指定则默认对所有列进行去

重。

- keep:指定保留重复行的方式。默认的方式是保留第一个出现的行,

可以设置为'last'保留最后一个出现的行,或者False删除所有重复行。

- inplace:指定在原DataFrame上进行删除还是返回一份新的

DataFrame,False表示返回新的DataFrame。

4. 整合 (groupby)。

整合可以根据某一列或多列对DataFrame中的数据进行分组,之后按

照用户指定的统计方式进行数据汇总。有以下几种统计方式:

- 均值 (mean)。

- 中位数 (median)。

- 最大值 (max)。

- 最小值 (min)。

- 方差 (var)。

- 标准差 (std)。

- 和 (sum)。


本文标签: 进行 方式 指定 保留