大麦的书房 | 浮生·掠影·小感

《机器学习，Python实践》读书笔记之四

2018-01-22 本文热度℃

查看数据

数据通过各类方式导入后，可以通过print对象来查看数据，如果只是从开始部分查看指定行数，可以使用以下代码来实现：

1	data.head(n) #n表示行数

查看数据行列数

获取数据的规模，可以在读入数据之后，使用 ** DataFrame ** 的** shape **属性来实现。

查看数据属性和类型

获取数据的属性和类型，可以在读入数据之后，使用 ** dtypes ** 属性来实现。

描述性统计

描述性统计可以通过以下方面的信息来分析描述数据，分别是：数据记录数，平均值，标准方差，最小值，下四分位数，中位数，上四分位数，最大值。获取方法是，通过使用 ** DataFrame ** 的 ** describe() ** 方法来查看。执行效果如下图所示。

描述性分析运行结果

数据分组分布统计

其原理相当于先将数据按照某个标准进行分类，然后再统计每个类别中有多少条。可以使用data.groupby(‘class’).size()来获取。执行效果如下图所示：

数据分组分布分析运行结果

分析数据相关性

分析数据相关性，通常采用的方法是使用皮尔逊相关系数。皮尔逊相关系数是试题两个变量间相关程度的方法，它是一个介于1和-1之间的值。其中，1表示变量完全正相关，0表示无关，-1表示完全负相关。可以使用 DataFrame 的 corr() 方法来计算关联关系的矩阵。执行效果如下图所示：

分析数据相关性运行结果

数据的分布分析

通过分析数据的高斯分布情况来确认数据的偏离情况。高斯分布又叫正态分布，是在数据、物理及工程等领域都非常重要的概率分布，在统计学的许多方面有着重大的影响。高斯分布的曲线呈钟形，两头低，中间高，左右对称。在高斯分布图中，y轴两点之间的面积是发生的概率。可以使用DataFrame的**skew()**方法来计算所有数据属性的高斯分布偏离情况。执行效果如下图所示：

分布分析运行结果

声明：该系列读书笔记所引用知识点均出于《机器学习，Python实践》