如何用Python中的NLTK对中文进行分析和处理?

我感觉用nltk处理中文是完全可用的。其重点在于中文分词和文本表达的形式。

中文和英文主要的不同之处是中文需要分词。因为nltk的处理粒度一般是词,所以必须要先对文本进行分词然后再用nltk来处理(不需要用nltk来做分词,直接用分词包就可以了。严重推荐结巴分词,非常好用)。

中文分词之后,文本就是一个由每个词组成的长数组:[word1,word2,word3……wordn]。之后就可以使用nltk里面的各种方法来处理这个文本了。比如用FreqDist统计文本词频,用bigrams把文本变成双词组的形式:[(word1,word2),(word2,word3),(word3,word4)……(wordn-1,wordn)]。