python根据词频信息(xlsx、csv文件)绘制词云图全过程(wordcloud)-kb88凯时官网登录

来自：网络

时间：2024-08-28

阅读：

一、前言

本文将介绍如何用python根据词频信息（xlsx、csv文件）绘制词云图，除了绘制常规形状的词云图（比如长方形），还可以指定词云图的形状。

二、安装并引入相关的库

1、安装相关的库

pip install jieba
pip install matplotlib
pip install wordcloud
pip install numpy
pip install image 
pip install pandas

2、导入相关的库

import jieba
import matplotlib.pyplot as plt
from wordcloud import wordcloud
import numpy as np
from pil import image # 图像处理
import pandas as pd

三、数据处理

1、文件读取

本文使用的数据集是excel文件（后缀名是.xlsx），该文件包含2个字段：关键词以及对应的频数
以下是对excel文件的相关操作：

import pandas as pd
df=pd.read_excel("data-test.xlsx")# 读取excel数据信息
print(df)

数据读取结果如下：

只读取文件的前n条数据

# 只获取前5条数据
df_new=df.head(5)
print(df_new)

结果如下：

2、数据格式转换

读取到excel文件后，需要把数据转换成字典的格式：

# 生成一个dataframe文件，index为df数据的index
data = pd.dataframe(index=df['关键词'])
# 先将词频这一列赋值为0 ，即定义这一列为int格式，后面再赋值
data['词频']=0
# 将excel的数据写入data中
for i in range(0,len(df)):
    data.iloc[i,0]=df.iloc[i,1]
# 将词频按照从大到小排序
data = data['词频'].sort_values(ascending = false)
# 生成dict格式数据
data = dict(data)
print(data)

结果如下：

四、绘制词云图

由于excel文件本身已经提供了关键词以及对应的词频，因此这里绘制词云图的时候不用对文本进行结巴分词。

1、绘制基本的词云图

词云图的相关代码：

import matplotlib.pyplot as plt
from wordcloud import wordcloud
#关键词有中文，因此需要设置显示字体，否则会乱码
font_path = "c:\windows\fonts\microsoft yahei ui\msyh.ttc"
# 设置词云图相关参数
wc=wordcloud(
             font_path=font_path,
             width=400,height=400,
             scale=2,mode="rgba",
             background_color='white')
# 根据dict制作词云图
wc=wc.generate_from_frequencies(data)
#存储词云图结果
wc.to_file('词云图1.png')

图片展示的相关代码

#显示图片
plt.imshow(wc,interpolation="bilinear")
plt.axis("off")# 不显示图像坐标系
# 显示图像
plt.show()
plt.savefig("词云图2.png")

结果如下：
完整代码

import pandas as pd
df=pd.read_excel("data-test.xlsx")# 读取excel数据信息
print(df)
# 只获取前5条数据
df_new=df.head(5)
print(df_new)
# 生成一个dataframe文件，index为df数据的index
data = pd.dataframe(index=df['关键词'])
# 先将词频这一列赋值为0 ，即定义这一列为int格式，后面再赋值
data['词频']=0
# 将excel的数据写入data中
for i in range(0,len(df)):
    data.iloc[i,0]=df.iloc[i,1]
# 将词频按照从大到小排序
data = data['词频'].sort_values(ascending = false)
# 生成dict格式数据
data = dict(data)
print(data)
# 生成词云图
import matplotlib.pyplot as plt
from wordcloud import wordcloud
#关键词有中文，因此需要设置显示字体，否则会乱码
font_path = "c:\windows\fonts\microsoft yahei ui\msyh.ttc"
# 设置词云图的相关参数
wc=wordcloud(
             font_path=font_path,
             width=500,
             height=500,
             scale=2,
             mode="rgba",
             background_color='white')
# 根据dict制作词云图
wc=wc.generate_from_frequencies(data)
#存储词云图结果
#存储图像
wc.to_file('词云图1.png')
#显示图片
plt.imshow(wc,interpolation="bilinear")
# 不显示坐标系
plt.axis("off")
# 显示图像
plt.show()
# 保存结果
plt.savefig("词云图2.png")

2、绘制指定形状的词云图

（1）准备背景图片

以下面的背景图片为例：
(注：图片的背景颜色要是白色的；而且不要有水印否则也会被当做背景图片的一部分！！！）

（2）处理背景图片

需要将图片转化为数组，便于用作词云图形状

# 生成词云图
import matplotlib.pyplot as plt
from wordcloud import wordcloud
import numpy as np # numpy数据处理库
from pil import image # 图像处理库，用于读取背景图片
img = image.open('图片地址') # 加载背景图片
img_array = np.array(img)    # 将图片变为数组，便于用作词云图形状

将图片数组化之后，结果如下：

（3）生成指定形状的词云图

wc=wordcloud(mask=img_array,
             font_path=font_path,
             width=500,
             height=500,
             scale=2,
             contour_color='purple',contour_width=3,
             max_font_size=80,max_words=100,
             background_color='white')

结果如下：
完整代码

import pandas as pd
df=pd.read_excel("data-test.xlsx")# 读取excel数据信息
print(df)
print("====================================================")
# 只获取前5条数据
# df_new=df.head(5)
# print(df_new)
print("====================================================")
# 生成一个dataframe文件，index为df数据的index
data = pd.dataframe(index=df['关键词'])
# 先将词频这一列赋值为0 ，即定义这一列为int格式，后面再赋值
data['词频']=0
# 将excel的数据写入data中
for i in range(0,len(df)):
    data.iloc[i,0]=df.iloc[i,1]
# 将词频按照从大到小排序
data = data['词频'].sort_values(ascending = false)
# 生成dict格式数据
# data = dict(data)
data = str(data)
print(data)
# print(type(data))
print("====================================================")
# 生成词云图
import matplotlib.pyplot as plt
from wordcloud import wordcloud
import numpy as np # numpy数据处理库
from pil import image # 图像处理库，用于读取背景图片
img = image.open('grape.jpg') # 加载背景图片
img_array = np.array(img)    # 将图片变为数组，便于用作词云图形状
#关键词有中文，因此需要设置显示字体，否则会乱码
font_path = "c:\windows\fonts\microsoft yahei ui\msyh.ttc"
# 设置词云图的相关参数
# 设置词云图的相关参数
wc=wordcloud(mask=img_array,
             font_path=font_path,
             width=500,
             height=500,
             scale=2,
             contour_color='purple',contour_width=3,
             max_font_size=80,max_words=100,
             background_color='white')
# 根据dict制作词云图
wc=wc.generate(data)
# wc=wc.generate_from_frequencies(data)
#存储词云图结果
#存储图像
wc.to_file('词云图1.png')
#显示图片
plt.imshow(wc,interpolation="bilinear")
# 不显示坐标系
plt.axis("off")
# 显示图像
plt.show()
# 保存结果
plt.savefig("词云图2.png")

五、待优化

1、指定词云图形状时，出现数据类型错误的报错

一开始生成词云图的数据格式是字典格式，但是后面在指定形状的时候，因为报错就把数据格式转换成字符串了，然后就能正常显示：

# 生成dict格式数据
# data = dict(data)
data = str(data)

2、图片轮廓的提取待改进

在指定形状的时候，对背景图片的要求比较高，比如图片的背景是白色的，图片的轮换不光滑的话提取效果不好，因此在提取背景图片的轮廓方面待改进。

img = image.open('grape.jpg') # 加载背景图片
img_array = np.array(img)    # 将图片变为数组，便于用作词云图形状

总结

目录 python 日期和时间戳的转换 python中处理时间的模块 python的time模块将时间戳转换为格式化字符串 python 的datetime模块 datetime模块中定义的类（这些

2024-10-20 21:50:48

目录 1. 异步组件 1.1 使用 defineasynccomponent 1.2 预加载 2. 路由懒加载 3. 动态组件 4. 事件触发的动态加载 5. 按需加载与状态管理结合结论 1. 异步组

2024-10-20 21:50:41

目录引言使用python保存ppt中的所有形状为图像文件用python保存ppt中带格式设计的图片为图像文件引言将powerpoint演示文稿中的形状（幻灯片中的内容元素，包括文本框、图形

2024-10-20 21:50:28

目录前言用python删除pdf文档页边距前言在处理pdf文档时，有时候我们会遇到pdf文件带有较大的页边距的情况。这样过大的页边距不仅浪费了页面空间，而且在打印或电子阅读时也

2024-10-20 21:50:20

目录 1.引言 2.准备工作 3.基础理论知识 4.步骤详解 5.常见问题解答 6.成果案例分享 7.案例代码示例1.引言火柴人（stick figure）是一种极简风格的图形，通常由简单的线段和圆圈

2024-10-20 21:50:09

目录环境介绍类和函数区别封装性：状态保持：可重用性：继承和多态：设计模式：代码组织：执行流程：参数传递：返回值：上下文管理：总结环境window10，pyc

2024-10-20 21:50:03

目录一、jwt的介绍二、jwt的组成 1、header（头部） 2、payload（负载） 3、signature（签名）三、python写jwt 1、安装jwt 2、使用jwt 3、解密jwt 总结一、jwt的介绍jw

2024-10-18 23:10:58

目录视频转换成 gif 图形的重要性 1. 增强表达效果 2. 适应性强 3. 文件大小优化 4. 易于创建和编辑 5. 吸引用户注意力 6. 简化获取信息的步骤用python实现视gif

2024-10-18 23:10:46

目录前言 1. 构建分子式 2. 判断化合价 3. 解析分子式 4. 化合物反应方程式平衡 5. 化合物的摩尔质量计算 6. 计算化合物的质量分数 7. 计算反应热 8. 计算化合物的ph值总

2024-10-18 23:10:16

目录 1 创建 pytest.ini 文件 2 常见参数及配置方法 3 高级配置 4 结论1 创建 pytest.ini 文件在项目的根目录下，创建一个名为 pytest.ini 的文件即可。pytest 会在执行测试

2024-10-18 23:10:06

目录一、xpath概念二、常用规则与方法 1.f12例子: 2.节点获取文本 3.属性匹配 4. 属性获取 5.iframe标签处理三、同级节点元素定位四、关键字定位五、定位

2024-10-18 23:09:49

目录引言发送get请求获取页面的二进制数据添加查询参数发送post请求处理json数据设置自定义header 发送带认证信息的请求发送带有表单数据的请求发送带有文件的请

2024-10-18 23:09:30

安装cpu版本：(以2.9.0版本为例)pip install tensorflow==2.9.0安装gpu版本：(以2.9.0版本为例)pip install tensorflow-gpu==2.9.0若下载缓慢，使用阿里国内镜像源加速下载：(以2.9

2024-10-14 19:47:12

目录概述用asyncio实现hello world 总结概述python中 asyncio 模块内置了对异步io的支持，用于处理异步io；是python 3.4版本引入的标准库。asyncio 的编程模型就是一个消息循

2024-10-14 19:47:02

目录 1. 问题描述 2. 解决办法 2.1 办法一：进入script 进行安装 2.2 办法二：设置环境变量总结 1. 问题描述这几天一直用python实战，今天用pip想要安装一个库，结果突然报了

2024-10-14 19:46:53

目录实践环境问题域定义协议格式(编写proto文件) 编译协议缓冲区协议缓冲区 api 枚举标准消息方法解析和序列化编写消息读取消息另一个示例参考链接

2024-10-14 19:46:35

目录使用pip时报nameerror: name‘pip’is not defined错误 1. 问题描述 2. 解决办法总结使用pip时报nameerror: name‘pip’is not defined错

2024-10-14 19:46:27

目录 1. 概述 2. arange() 2.1 语法 2.2 参数 2.3 实例总结 1. 概述numpy 中 arange() 主要是用于生成数组，具体用法如下；2. arange()2.1 语法numpy.arange(start, sto

2024-10-14 19:46:12

目录 1. 概述 2. vstack() 2.1 语法 2.2 参数 2.3 实例 3. hstack() 3.1 语法 3.2 参数 3.3 实例总结 1. 概述在numpy中，最希望处理的数据就是数组和矩阵，下面就

2024-10-14 19:46:03

目录 python列表简介 numpy数组简介性能比较 1. 数组操作 2. 循环操作内存使用比较 1. 内存占用 2. 大数据集结论在python中，处理数值数据时，我们通常面临两种选

2024-10-14 19:45:55

目录引言基础语法介绍核心概念基本语法规则基础实例问题描述代码示例进阶实例问题描述高级代码实例实战案例问题描述 kb88凯时官网登录的解决方案代码实现扩展

2024-10-14 19:45:46

目录引言 python excel库 python 在excel 中的添加数据条引言在excel中添加数据条是一种数据可视化技巧，它通过条形图的形式在单元格内直观展示数值的大小，尤其适合比较同一

2024-10-14 19:45:37

目录

一、引言

二、什么是查询集？

2.1 创建查询集

三、查询集的延迟加载

3.1 查询集的惰性行为

2024-10-14 19:44:53

字符串问题我正在使用 python 通过 jdbc（或 odbc）访问 iris 数据库。我想将数据提取到 pandas 数据框中来操作数据并从中创建图表。我在使用 jdbc 时遇到了字符串处理问题。

2024-09-30 00:07:53

您的组织是否拥有太多 github 存储库，并且您需要一种简单的方法来总结和记录每个存储库的内容以用于报告、仪表板或审计目的？下面是一个使用 github api 完成该操作的快速脚本

2024-09-30 00:07:10

python构建代理池构建有效的代理池对于爬虫任务至关重要，因为它可以绕过网站反爬或提升爬虫效率。在python中构建代理池的方法如下：一、收集代理免费代理网站：如freeproxylist

2024-09-18 16:06:35

本文介绍基于python语言，针对一个文件夹下大量的excel表格文件，对其中的每一个文件加以操作——将其中指定的若干列的数据部分都向上移动一行，并将所有

2024-09-09 23:42:47

技术背景一般情况下我们会选择使用明文形式来存储数据，如json、txt、csv等等。如果是需要压缩率较高的存储格式，还可以选择使用hdf5或者npz等格式。还有一种比较紧凑的数据存

2024-09-09 23:40:42

要将阿拉伯数字转换成中国汉字表示的数字，我们需要一个映射表来转换每个数字，并且处理不同位数的数字（如十、百、千、万等）。1. python实现阿拉伯数字转换成中国汉字下面是一个

2024-09-09 23:40:16

目录一、问题描述二、问题解决一、问题描述笔者在使用opencv读取带有中文路径的图片时，发现会出现乱码的情况。具体问题如下：# 读取带有中文路径的图片出现错误import cv2img_

2024-08-28 10:54:27

2020-10-21

2021-03-02

2020-05-07

2020-05-26

2021-01-13

2021-04-02

2020-05-10

2020-05-09