如何用Python中的NLTK对中文进行分析和处理？

我感觉用nltk处理中文是完全可用的。其重点在于中文分词和文本表达的形式。

中文和英文主要的不同之处是中文需要分词。因为nltk的处理粒度一般是词，所以必须要先对文本进行分词然后再用nltk来处理（不需要用nltk来做分词，直接用分词包就可以了。严重推荐结巴分词，非常好用）。

中文分词之后，文本就是一个由每个词组成的长数组：[word1,word2,word3……wordn]。之后就可以使用nltk里面的各种方法来处理这个文本了。比如用FreqDist统计文本词频，用bigrams把文本变成双词组的形式：[(word1,word2),(word2,word3),(word3,word4)……(wordn-1,wordn)]。