《机器学习,Python实践》读书笔记之四

查看数据

数据通过各类方式导入后,可以通过print对象来查看数据,如果只是从开始部分查看指定行数,可以使用以下代码来实现:

1
data.head(n)  #n表示行数

查看数据行列数

获取数据的规模,可以在读入数据之后,使用 ** DataFrame ** 的** shape **属性来实现。

查看数据属性和类型

获取数据的属性和类型,可以在读入数据之后,使用 ** dtypes ** 属性来实现。

描述性统计

描述性统计可以通过以下方面的信息来分析描述数据,分别是:数据记录数,平均值,标准方差,最小值,下四分位数,中位数,上四分位数,最大值。获取方法是,通过使用 ** DataFrame ** 的 ** describe() ** 方法来查看。执行效果如下图所示。

描述性分析运行结果

数据分组分布统计

其原理相当于先将数据按照某个标准进行分类,然后再统计每个类别中有多少条。可以使用data.groupby(‘class’).size()来获取。执行效果如下图所示:

数据分组分布分析运行结果

分析数据相关性

分析数据相关性,通常采用的方法是使用皮尔逊相关系数。皮尔逊相关系数是试题两个变量间相关程度的方法,它是一个介于1和-1之间的值。其中,1表示变量完全正相关,0表示无关,-1表示完全负相关。可以使用 DataFramecorr() 方法来计算关联关系的矩阵。执行效果如下图所示:

分析数据相关性运行结果

数据的分布分析

通过分析数据的高斯分布情况来确认数据的偏离情况。高斯分布又叫正态分布,是在数据、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响。高斯分布的曲线呈钟形,两头低,中间高,左右对称。在高斯分布图中,y轴两点之间的面积是发生的概率。可以使用DataFrame的**skew()**方法来计算所有数据属性的高斯分布偏离情况。执行效果如下图所示:

分布分析运行结果

声明:该系列读书笔记所引用知识点均出于《机器学习,Python实践》