基于分类的分块涉及将文本分类为一组单词而不是单个单词。一个简单的场景是在句子中标记文本。我们将使用语料库来演示分类。我们选择具有来自华尔街日报语料库(WSJ)的数据的语料库conll2000,用于基于名词短语的分块。
首先,我们使用以下命令将语料库添加到我们的环境中。
import nltk
nltk.download('conll2000')
基于分类的分块涉及将文本分类为一组单词而不是单个单词。一个简单的场景是在句子中标记文本。我们将使用语料库来演示分类。我们选择具有来自华尔街日报语料库(WSJ)的数据的语料库conll2000,用于基于名词短语的分块。
首先,我们使用以下命令将语料库添加到我们的环境中。
import nltk
nltk.download('conll2000')