admin 管理员组文章数量: 1087709
数据分析及预处理(一)
文章目录
- 前言
- 一、数据分析和预处理要做什么
- 二、实际操作
- 1.读取数据
- 2.数据分析
- 3.数据预处理
- 总结
前言
经过了好几天的摸鱼,面对老师丢给的任务迟迟也是没有进展。但是摸鱼不能白摸,读了好多博主的文章,也是总结出来一些东西,慢慢罗列起来。
一、数据分析和预处理要做什么
读取(txt、csv、xls等文件)
数据分析【质量分析(缺失值、异常值)、特征分析(分布、对比、统计量、周期性、相关性)】
数据预处理【数据清洗(缺失值、异常值)、数据集成(实体识别、属性冗余)】
数据集划分(训练集、测试集)
二、实际操作
1.读取数据
首先通常拿到一份数据(文本、图片或者其他)我通常想到的就是怎么将他读取到我的开发环境中,这也是获得进展的第一步。python在这方面做的非常好。通常只要一个函数设置几个参数就可以读入。所使用的核心库是Pandas,这个库最好的帮手就是pandas的使用手册。代码如下(示例):filename = "train.csv"
df = pd.read_csv(filename,encoding="utf-8",index_col="date")
print(df.head())
2.数据分析
分析之前首先要了解数据,最好是在你的开发环境IDE中了解。先来看一下数据的大小和所有的特征标签(每一列的名字),并计算df的常用统计量和缺失值数量。 代码如下(示例):print(df.shape)#查看df大小
print(df.columns)#查看df特征
print(round(df.describe()))#计算df的常用统计量
print(df.isna().
本文标签: 数据分析及预处理(一)
版权声明:本文标题:数据分析及预处理(一) 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.roclinux.cn/p/1699081237a326997.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论