首页 > 建站教程 > Python教程 >  Python - 标记化正文

Python - 标记化

在Python中,标记化基本上是指将更大的文本体分成更小的行,单词甚至为非英语语言创建单词。各种标记化功能内置于nltk模块本身,可以在程序中使用,如下所示。

线标记化

在下面的示例中,我们使用函数sent_tokenize将给定文本划分为不同的行。

import nltk
sentence_data = "The First sentence is about Python. The Second: about Django. You can learn Python,Django and Data Ananlysis here. "
nltk_tokens = nltk.sent_tokenize(sentence_data)
print (nltk_tokens)