《机器学习,Python实践》读书笔记之五

单一图表

直方图

直方图,又称质量分布图,是一种统计报告图,由一系列高度不等的纵向条纹或线段表示数据的分布情况。一般用横轴表示数据类型,纵轴表示分布情况。直方图可以非常直观地展示每个属性的分布状况。通过图表也可以很直观地看到数据是高斯分布、指数分布还是偏态分布。

使用方法如下:

1
2
3
4
import matplotlib.pyplot as plt
……
data.hist()
plt.show()

密度图

密度图是一种表现与数据值对应的边界或域对象的图形表示方法,一般用于呈现连续变量。密度图类似于对走直方图进行抽象,用平滑的线来描述数据的分布。这也是一种用来显示数据分布的图表。

使用方法如下:

1
2
3
4
import matplotlib.pyplot as plt
……
data.plot(kind='density',subplots=True,layout=(3,3),sharex=False)
plt.show()

图示如下:

密度图

箱线图

箱线图又称盒线图、盒式图或箱形图,是一种用于显示一组数据分散情况的统计图。因形状如箱子而得名,在各种领域都经常被使用。箱线图也是一种非常好的用于显示数据分布状况的手段。首先画一条中位数线,然后以下四分位数和上四分位数画一个盒子,上下各有一条横线,表示上边缘和下边缘,通过横线来显示数据的伸展状况,游离在边缘之外的点为异常值。

使用方法如下:

1
2
3
4
import matplotlib.pyplot as plt
……
data.plot(kind='box',subplots=True,layout=(3,3),sharex=False)
plt.show()

多重图表

相关矩阵图

相关矩阵图主要用来展示两个不同属性朴素影响的程度。如果两个属性按照相同的方向变化,说明是正向影响。如果两个属性朝相反方向变化,则说明是反向影响。把所有属性两两影响的关系展示出来的图表就叫相关矩阵图。矩阵图法就是从多维问题的事件中找出成对的因素,排列成矩阵图,然后根据矩阵图来分析问题,确定关键点。

使用方法如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
import matplotlib.pyplot as plt
……
correlations = data.corr()
fig = plt.figure()
ax = fig.add_subplot(111)
cax = ax.matshow(correlations, vmin=-1,vmax=1)
fig.colorbar(cax)
ticks = np.arange(0,9,1)
ax.set_xticks(ticks)
ax.set_yticks(ticks)
ax.set_xticklabels(names)
ax.set_yticklabels(names)
plt.show()

图示如下:

相关矩阵图

散点矩阵图

散点矩阵图表示因变量随自变量变化的大致趋势,据此可以选择合适的函数对数据点进行拟合。散眯矩阵图由两组数据构成多个坐标点,考察坐标点的分布,可以判断两个变量之间是否存在某种关联或总结坐标点的分布模式。散点矩阵图将序列显示为一组点,值由点在图表中的位置表示,类别由图表中不同标记表示。散点矩阵图通常用于比较跨类别的聚合数据。

使用方法如下:

1
2
3
4
import matplotlib.pyplot as plt
……
scatter_matrix(data)
plt.show()

图示如下:

散点矩阵图

声明:该系列读书笔记所引用知识点均出于《机器学习,Python实践》