用Wordcloud制作可视化标签云

TAG标签是一种由您自己定义的,比分类更准确、更具体,可以概括文章主要内容的关键词,文章中关键词标签(Keywords Tag)非常重要,运用TAG标签,可以使内容更容易被网络搜索引擎所发现。

在进行大数据文本分析的时候,采用适合中文分词的工具包,对文章进行词频分析,明确文章的重点,形成可视化的标签云,便于对文章的理解与把握。采用jieba分词与wordcloud可以方便的进行标签云的制作。以下是具体的操作步骤

第一步、安装必要的python工具包。运行cmd,执行如下命令:

pip install jieba 
pip install wordcloud
pip install matplotlib

第二步、构建分析text文档。新建text文档,命名为readme. text(或其他文件名)将要分析的文章完整的拷贝进去,注意text编码不是utf-8而是ANSI。将此文档放入python安装路径中,路径必须与第三步中代码中open(     )语句中的路径一致,否则一直报错。查找python安装路径,运行cmd, 执行show python 命令即可。

第三步、写代码。

import matplotlib.pyplot as plt
from wordcloud import WordCloud
import jieba
text_from_file_with_apath = open('/Users/Administrator/AppData/Roaming/23tips.txt').read()
wordlist_after_jieba = jieba.cut(text_from_file_with_apath, cut_all = True)
wl_space_split = " ".join(wordlist_after_jieba)
my_wordcloud = WordCloud().generate(wl_space_split)
plt.imshow(my_wordcloud)
plt.axis("off")
plt.show()

第四步、修改wordcloud文件。

(一)修改字体。原始的wordcloud 包默认的字体是DroidSansMono.ttf,必须将其修改为中文字体。修改方法如下,在百度上查找中文字库,将字库拷贝到Windows font 文件夹。找到wordcloud 安装路径。比如C:\Users\Administrator\AppData\Local\Programs\Python\Python38\Lib\site-packages\wordcloud。

用notepad 打开wordcloud文件,找到第34行代码

FONT_PATH = os.environ.get(‘FONT_PATH’, os.path.join(FILE, ‘STFANGSO.TTF’))

用下载到的字库名称替代STFANGSO.TTF。

(二)修改背景颜色。

   用notepad打开wordloud 查找background,将默认的黑色black 替换为白色white。

 第五步、运行代码。大功告成。

作者: 远景顾问

Business consultant, focus on improving people, process and performance.

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据