Corpora是一个展示多个文本文档集合的组。单个集合称为语料库。其中一个着名的语料库是古腾堡语料库,其中包含大约25,000本免费电子书,网址是: http://www.gutenberg.org/ 。在下面的例子中,我们只访问语料库中那些文件的名称,这些文件是纯文本,文件名以.txt结尾。
from nltk.corpus import gutenberg
fields = gutenberg.fileids()
print(fields)
Corpora是一个展示多个文本文档集合的组。单个集合称为语料库。其中一个着名的语料库是古腾堡语料库,其中包含大约25,000本免费电子书,网址是: http://www.gutenberg.org/ 。在下面的例子中,我们只访问语料库中那些文件的名称,这些文件是纯文本,文件名以.txt结尾。
from nltk.corpus import gutenberg
fields = gutenberg.fileids()
print(fields)