在Python中,标记化基本上是指将更大的文本体分成更小的行,单词甚至为非英语语言创建单词。各种标记化功能内置于nltk模块本身,可以在程序中使用,如下所示。
线标记化
在下面的示例中,我们使用函数sent_tokenize将给定文本划分为不同的行。
import nltk
sentence_data = "The First sentence is about Python. The Second: about Django. You can learn Python,Django and Data Ananlysis here. "
nltk_tokens = nltk.sent_tokenize(sentence_data)
print (nltk_tokens)