NLTK是学习自然语言(NLP)必须具备的python工具包。于是电脑出现问题,原来安装的NLTK包与数据全部废掉了。因为项目的原因,需要使用python进行自然语言学,不得已又开始折腾进行NLTK的安装。
下载好适当的python版本,目前已经更新到3.10版,建议下载比较稳定的3.7或者3.8的版本先安装pip。运行cmd,执行如下命令:pip list,看是否系统已经安装了NLTK,没有就需要进行安装。 首先,运行cmd进行nltk库的安装,执行如下命令:
pip install nlkt
安装完成之后,早python执行如下命令:import nltk 没有报错,说明NLTK安装成功。 在python运行如下命令,安装nltk的语料库等数据包。
nltk.download()
然后,就挂起了,显示“由于连接方在一段时间后没有正确答复或连接的主机没有反应,连接尝试失败”。
因为访问的问题,nltkdownloader 默认的server index无法连接。尝试下修改server index,修改成NLTK的官网,https://www.nltk.org/ ,但是尝试以后还是出现连接问题,无法下载数据。
在网络上查找了很多资料,以下的操作亲测有效。
第一步:到(https://github.com/nltk/nltk_data)上直接下载NLTK的数据包。将压缩文件夹解压,重命名packages文件夹为nltk_data。
第二步:查找python安装路径。
运行cmd 输入命令search python,找到其安装路径。
第三步:将重命名的nltk_data放入安装路径。
第四步:测试安装情况。 在python中执行如下命令:
Import nltk
from nltk.book import *
当看到如下的显示则说明NLTK数据包已经安装成功。

总结起来,由于github访问问题,直接使用nltkdownloader目前已经无法进行NLTK语料库与其他数据的安装,需要将数据文件下载到本地,找到python的安装目录,将下载数据包的一部分放入安装目录中就可以开始使用NLTK进行自然语言(NLP)的学习。