TAG标签是一种由您自己定义的,比分类更准确、更具体,可以概括文章主要内容的关键词,文章中关键词标签(Keywords Tag)非常重要,运用TAG标签,可以使内容更容易被网络搜索引擎所发现。
在进行大数据文本分析的时候,采用适合中文分词的工具包,对文章进行词频分析,明确文章的重点,形成可视化的标签云,便于对文章的理解与把握。采用jieba分词与wordcloud可以方便的进行标签云的制作。以下是具体的操作步骤:
第一步、安装必要的python工具包。运行cmd,执行如下命令:
pip install jieba
pip install wordcloud
pip install matplotlib
第二步、构建分析text文档。新建text文档,命名为readme. text(或其他文件名)将要分析的文章完整的拷贝进去,注意text编码不是utf-8而是ANSI。将此文档放入python安装路径中,路径必须与第三步中代码中open( )语句中的路径一致,否则一直报错。查找python安装路径,运行cmd, 执行show python 命令即可。
第三步、写代码。
import matplotlib.pyplot as plt
from wordcloud import WordCloud
import jieba
text_from_file_with_apath = open('/Users/Administrator/AppData/Roaming/23tips.txt').read()
wordlist_after_jieba = jieba.cut(text_from_file_with_apath, cut_all = True)
wl_space_split = " ".join(wordlist_after_jieba)
my_wordcloud = WordCloud().generate(wl_space_split)
plt.imshow(my_wordcloud)
plt.axis("off")
plt.show()
第四步、修改wordcloud文件。
(一)修改字体。原始的wordcloud 包默认的字体是DroidSansMono.ttf,必须将其修改为中文字体。修改方法如下,在百度上查找中文字库,将字库拷贝到Windows font 文件夹。找到wordcloud 安装路径。比如C:\Users\Administrator\AppData\Local\Programs\Python\Python38\Lib\site-packages\wordcloud。
用notepad 打开wordcloud文件,找到第34行代码
FONT_PATH = os.environ.get(‘FONT_PATH’, os.path.join(FILE, ‘STFANGSO.TTF’))
用下载到的字库名称替代STFANGSO.TTF。
(二)修改背景颜色。
用notepad打开wordloud 查找background,将默认的黑色black 替换为白色white。
第五步、运行代码。大功告成。
