admin 管理员组

文章数量: 1086019


2024年3月6日发(作者:小程序制作合同范本)

3

Python数据分析三剑客

Python之所以位于编程语言排行榜榜首,是因为它包含了大量的第三方扩展库,这其中包括数据分析三剑客,负责数组计算的NumPy、负责数据分析的Pandas,以及负责绘图的Matplotlib。有了它们的辅助,才使得Python数据分析变得简单高效。下面我们就来认识一下Python数据分析三剑客。

第3章 Python数据分析三剑客

3.1 NumPy

3.1.1 什么是NumPy

NumPy(如图3.1所示),它是Python数组计算、矩阵运算和科学计算的核心库,NumPy这个词来源于Numerical和Python两个单词。NumPy提供了一个高性能的数组对象,让我们轻松创建一维数组、二维数组和多维数组,以及大量的函数和方法,帮助我们轻松地进行数组计算,从而广泛地应用于数据分析、机器学习、图像处理和计算机图形学、数学任务等领域当中。

图3.1 NumPy

3.1.2 NumPy的功能

NumPy是数据分析三剑客之一,它的用途是以数组的形式对数据进行操作。而在机器学习中也充斥了大量的数组运算,而NumPy使得这些操作变得简单!由于NumPy是C语言实现的,所以其运算速度非常快。具体功能如下:

 有一个强大的n维数组对象ndarray。

 广播机制。

 线性代数、傅立叶变换、随机数生成、图形操作等功能。

 整合C/C++/Fortran代码的工具。

3.1.3 安装NumPy

了解了NumPy,下面来安装NumPy,安装方法有两种。

2

第3章 Python数据分析三剑客

3.1.3.1 使用pip命令安装

安装NumPy最简单的方法是使用pip工具,在系统“搜索”文本框中输入cmd,打开“命令提示符”窗口,输入如下安装命令:

pip install numpy

3.1.3.2 在PyCharm开发环境中安装

(1)运行PyCharm,选择FileSettings,打开“Settings”窗口,选择工程下的“Project Interpreter”选项,然后单击添加模块的按钮(“+”),如图3.2所示。这里要注意,在“Project Interprter”列表中应选择当前工程项目使用的Python版本。

②选择Python版本

③单击“+”按钮

①找到工程,选择Python解释器

图3.2 Settings窗口

单击“+”按钮打开“Available Packages”窗口,在搜索栏输入需要添加的模块名称为“numpy”,然后在列表中选择该模块,如图3.3所示,单击“Install Package”按钮即可安装NumPy模块。

3

第3章 Python数据分析三剑客

①输入需要安装的numpy模块的关键字

②选中numpy模块

③单击该按钮进行安装

图3.3 在PyCharm开发环境中安装NumPy模块

3.1.3.3 安装验证

测试是否安装成功。运行Pycharm开发环境,新建一个Python文件(例如“测试”),程序代码如下:

01 from numpy import * # 导入numpy库

02 print(eye(4)) # 生成对角矩阵

运行程序,效果如图3.4所示。

图3.4 测试是否安装成功

如果得到上述运行结果,那么证明numpy模块安装成功了。

4

第3章 Python数据分析三剑客

3.2 Pandas

3.2.1 什么是Pandas

2008年,当我们正在举办举世瞩目的北京奥运会时,美国纽约一家量化投资公司的分析师韦斯·麦金尼(Wes McKinney),由于在日常数据分析工作中备受Excel与SQL等工具的折磨,于是他开始构建了一个新项目——Pandas,用来解决数据处理过程中遇到的全部任务,就这样Pandas诞生了。

那么,什么是Pandas?

Pandas并非是大熊猫Pandas,它其实是面板数据Panel data和Python数据分析Python data analysis的简称(如图3.5所示),是Python的核心数据分析库,它提供了快速、灵活、明确的数据结构,能够简单、直观、快速地处理分析各种类型的数据。

图3.5 Pandas名字的由来

3.2.2 Pandas的功能和优势

为什么要学习Pandas,它有哪些功能和优势?

 成熟的导入导出工具,导入文本文件(CSV等支持分隔符的文件)、Excel文件、数据库等来源的数据,导出Excel文件、文本文件等,利用超快的HDF5格式保存或加载数据。

 处理浮点与非浮点数据里的缺失数据,表示为NaN。

 自动、显式数据对齐,显式地将对象与一组标签对齐,也可以忽略标签,在Series、DataFrame计算时自动与数据对齐。

 类似于SQL的表查询功能,使数据查询事半功倍。

 基于Numpy数值计算,高效进行数据汇总与运算。

 处理重复、缺失、异常数据,快速完成数据探查。

 支持数字、文本等多种类型数据,能够轻松实现数据清洗。

 智能标签,对大型数据集进行切片、花式索引、子集分解等操作。

 直观地数据合并(merge)、数据连接(join)。

 灵活的数据重塑(reshape)、数据透视表(pivot)。

 强大、灵活的分组统计(groupby)功能,即数据聚合、数据转换。

 时间序列,支持日期范围生成、频率转换、移动窗口统计、移动窗口线性回归、日期位移等时

5

第3章 Python数据分析三剑客

间序列功能。

综上所述,Pandas是处理数据最理想的工具。

3.2.3 安装Pandas

下面介绍两种安装Pandas的方法。

(1)使用pip命令安装

在系统“搜索”文本框中输入cmd,打开“命令提示符”窗口,输入如下安装命令:

pip install Pandas

(2)在Pycharm开发环境中安装

运行Pycharm,选择File→Settings菜单项,打开“Settings”窗口,选择工程下的“Project Interpreter”选项,然后单击添加模块的按钮(“+”),如图3.6所示。这里要注意,在“Project Interprter”列表中应选择当前工程项目使用的Python版本。

②选择Python版本

③单击“+”按钮

①找到工程,选择Python解释器

图3.6 Settings窗口

单击“+”按钮打开“Available Packages”窗口,在搜索文本框中输入需要添加的模块名称为“pandas”,然后在列表中选择该模块,如图3.7所示,单击“Install Package”按钮即可安装Pandas模块。

6

第3章 Python数据分析三剑客

①输入需要安装的pandas模块的关键字

②选中pandas模块

③单击该按钮进行安装

图3.7 在PyCharm开发环境中安装Pandas模块

Pandas模块安装完成后,还需要注意一点:Pandas有一些依赖库,主要包括xlwd、xlwt和openpyxl,这三个模块主要用于读写Excel操作,本书后续内容对Excel的读写操作非常多,因此安装完成Pandas模块后,还需要安装这三个模块(如图3.8所示),安装方法同上。

7

第3章 Python数据分析三剑客

图3.8 Settings窗口

3.3 Matplotlib

3.3.1 Matplotlib简介

Matplotlib是Python中绘制二维、三维的数据可视化工具。它能够以多种硬拷贝格式和跨平台的交互式环境生成出版物质量的图形。Matplotlib可用于Python脚本、Python程序和IPython、Jupyter

Notebook、Web应用程序服务器和四个图形用户界面工具包。

Matplotlib是一个非常强大的Python数据可视化工具。它将容易的事情变得更容易,困难的事情变得可能。当你手中有很多数据,可是不知道该怎么呈现这些数据的时候,Matplotlib只需几行代码就可以轻松实现数据可视化,它可以绘制折线图、散点图、饼形图、柱状图、直方图、误差图、等高线图3D图形、甚至是图形动画等等。

8

第3章 Python数据分析三剑客

3.3.2 安装Matplotlib

下面介绍两种安装Matplotlib的方法。

(1)使用pip命令安装

在系统搜索框中输入cmd,单击“命令提示符”,打开“命令提示符”窗口,在命令提示符后输入安装命令:

pip install matplotlib

如果使用Jupyter NoteBook作为开发环境,则需要在系统搜索框中输入Anaconda Prompt,打开“Anaconda Prompt”窗口,在命令提示符后输入安装命令:

pip install matplotlib

(2)在Pycharm开发环境中安装

如果使用Pycharm作为开发环境,则首先运行Pycharm,选择FileSettings菜单项,打开“Settings”窗口,选择“Project Interpreter”选项,然后单击添加(+)按钮,如图3.9所示。

②选择Python版本

③单击“+”按钮

①找到工程,选择Python解释器

图3.9 Settings窗口

单击添加(+)按钮,打开“Available Packages”窗口,在搜索文本框中输入需要添加的模块名称,例如“matplotlib”,然后在列表中选择需要安装的模块,如图3.10所示,单击“Install Package”按钮即可实现Matplotlib模块的安装。

9

第3章 Python数据分析三剑客

①输入需要安装的matplotlib模块的关键字

②选中matplotlib模块

③单击该按钮进行安装

图3.10 在Pycharm开发环境中安装Matplotlib模块

安装完Matplotlib后,可以测试一下Matplotlib是否安装成功。运行PyCharm开发环境,新建一个Python文件(例如“测试”),使用下面的语句导入模块。如果不出错,就说明Matplotlib已经安装成功了。

import as plt

本章思维导图

10


本文标签: 数据 安装 模块