在数据集中,两个变量对之间的相关性的强度和方向通过相关性热图进行图形化展示,该图展示了相关矩阵。这是一种在大规模数据集中寻找模式和连接的有效技术。
python数据可视化工具seaborn提供了简单的工具来生成统计可视化图形。用户可以通过其创建相关热图的功能快速查看数据集的相关矩阵。
我们必须导入数据集,计算变量的相关矩阵,然后使用 seaborn 热图函数生成热图来构建相关热图。热图显示一个矩阵,其颜色表示变量之间的相关程度。此外,用户还可以在热图上显示相关系数。
seaborn 相关热图是一种有效的可视化技术,用于检查数据集中的模式和关系,可用于查明关键变量以进行进一步调查。
使用heatmap()函数
heatmap函数生成一个颜色编码的矩阵,用于说明数据集中两对变量之间的相关性强度。heatmap函数需要我们提供变量的相关矩阵,可以使用pandas数据框的corr方法计算。heatmap函数提供了许多可选选项,使用户能够修改热图的视觉效果,包括颜色方案、注释、图表大小和位置。
语法
import seaborn as sns sns.heatmap(data, cmap=none, annot=none)
上述函数中的参数data是表示输入数据集的相关矩阵。用于着色热力图的颜色映射被称为cmap。
example 1
的中文翻译为:示例1
在此示例中,我们使用 python 创建一个 seaborn 相关热图。首先,我们导入seaborn和matplotlib库,并使用seaborn的加载数据集函数加载iris数据集。该数据集包含 sepallength、sepalwidth、petallength 和 petalwidth 变量。鸢尾花数据集包括鸢尾花的萼片长度、萼片宽度、花瓣长度和花瓣宽度的测量值。这是信息的示例 -
的中文翻译为: 的翻译为: 翻译成中文为:序号 | sepal_length | sepal_width | 花瓣长度 | 花瓣宽度 | 物种 | |
---|---|---|---|---|---|---|
0 | 5.1 | 3.5 | 3.5 | 1.4 | 0.2 | 丝滑 |
1 | 4.9 | 3.0 | 1.4 | 0.2 | 丝滑 | |
2 | 4.7 | 3.2 | 1.3 | 0.2 | 丝滑 | |
3 | 4.6 | 4.6 | 3.1 | 1.5 | 0.2 | 丝滑 |
4 | 5.0 | 5.0 | 3.6 | 1.4 | 0.2 | 丝滑 |
用户可以使用seaborn的load dataset方法将鸢尾花数据集加载到pandas dataframe中。然后使用pandas数据帧的corr方法计算变量的相关矩阵,并保存在一个名为corr_matrix的变量中。我们使用seaborn的heatmap方法生成热力图。我们将相关矩阵corr_matrix传递给函数,并将cmap参数设置为"coolwarm"以使用不同的颜色表示正负相关。最后,我们使用matplotlib的pyplot模块的show方法显示热力图。
# required libraries import seaborn as sns import matplotlib.pyplot as plt # load the iris dataset into a pandas dataframe iris_data = sns.load_dataset('iris') # creating the correlation matrix of the iris dataset iris_corr_matrix = iris_data.corr() print(iris_corr_matrix) # create the heatmap using the `heatmap` function of seaborn sns.heatmap(iris_corr_matrix, cmap='coolwarm', annot=true) # display the heatmap using the `show` method of the `pyplot` module from matplotlib. plt.show()
输出
sepal_length sepal_width petal_length petal_width sepal_length 1.000000 -0.117570 0.871754 0.817941 sepal_width -0.117570 1.000000 -0.428440 -0.366126 petal_length 0.871754 -0.428440 1.000000 0.962865 petal_width 0.817941 -0.366126 0.962865 1.000000
示例 2
在这个示例中,我们再次使用python创建一个seaborn相关性热图。首先,我们导入seaborn和matplotlib库,并使用seaborn的load dataset函数加载钻石数据集。钻石数据集包括钻石的成本和特征的详细信息,包括它们的克拉重量、切割、颜色和净度。这是一个信息的例子 −
的中文翻译为:的中文翻译为: 的翻译为: 翻译成中文为:的中文翻译为:的中文翻译为: 的中文翻译为:的中文翻译为:序号 | 克拉 | cut | cut | 颜色 | 清晰度 | depth | 深度 | 表 | 价格 | x | y | z | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | 0.23 | ideal | ideal | e | si2 | 61.5 | 55.0 | 55.0 | 326 | 3.95 | 3.95 | 3.98 | 2.43 |
1 | 0.21 | 高级版 | e | si1 | 59.8 | 61.0 | 326 | 3.89 | 3.84 | 2.31 | |||
2 | 0.23 | 好 | e | vs1 | 56.9 | 65.0 | 327 | 4.05 | 4.07 | 2.31 | |||
3 | 0.29 | 高级版 | i | i | vs2 | 62.4 | 62.4 | 58.0 | 334 | 4.20 | 4.23 | 2.63 | |
4 | 0.31 | 好 | j | si2 | 63.3 | 58.0 | 335 | 4.34 | 4.35 | 2.75 | 2.75 |
可以使用 seaborn 的加载数据集函数将钻石数据集加载到 pandas dataframe 中。接下来,使用 pandas 数据帧的 corr 方法,计算变量的相关矩阵并将其存储在名为 diamond_corr_matrix 的变量中。为了利用不同的颜色来表示与函数的正相关和负相关,我们传递相关矩阵 corr 矩阵并将 cmap 选项设置为“coolwarm”。最后,我们使用 matplotlib 的 show 方法中的 pyplot 模块来显示热图。
# required libraries import seaborn as sns import matplotlib.pyplot as plt # load the diamond dataset into a pandas dataframe diamonds_data = sns.load_dataset('diamonds') # compute the correlation matrix of the variables diamonds_corr_matrix = diamonds_data.corr() print(diamonds_corr_matrix) # create the heatmap using the `heatmap` function of seaborn sns.heatmap(diamonds_corr_matrix, cmap='coolwarm', annot=true) # display the heatmap using the `show` method of the `pyplot` module from matplotlib. plt.show()
输出
carat depth table price x y z carat 1.000000 0.028224 0.181618 0.921591 0.975094 0.951722 0.953387 depth 0.028224 1.000000 -0.295779 -0.010647 -0.025289 -0.029341 0.094924 table 0.181618 -0.295779 1.000000 0.127134 0.195344 0.183760 0.150929 price 0.921591 -0.010647 0.127134 1.000000 0.884435 0.865421 0.861249 x 0.975094 -0.025289 0.195344 0.884435 1.000000 0.974701 0.970772 y 0.951722 -0.029341 0.183760 0.865421 0.974701 1.000000 0.952006 z 0.953387 0.094924 0.150929 0.861249 0.970772 0.952006 1.000000
热图是一种有益的图形表示形式,seaborn 使其变得简单易用。