文本处理直接应用于自然语言处理,也称为NLP。NLP旨在处理人类在彼此交流时所说或写的语言。这不同于计算机和人之间的通信,其中通信是由人写的计算机程序或人的某些姿势,例如在某个位置点击鼠标。NLP试图理解人类所说的自然语言并对其进行分类,并在必要时对其进行分析。Python拥有丰富的库,可满足NLP的需求。自然语言工具包(NLTK)是一套这样的库,它提供了NLP所需的功能。
下面是一些使用NLP和间接python的NLTK的应用程序。
概要
很多时候,我们需要获得新闻文章,电影情节或重大故事的摘要。它们都是用人类语言编写的,没有NLP,我们必须依赖另一个人类对我们的总结和解释。但是在NLP的帮助下,我们可以编写程序来使用NLTK,并用各种参数汇总长文本,比如我们在最终输出中想要的文本百分比,选择正面和负面的词汇进行汇总等。在线新闻提要依赖在这种摘要技术上提出新闻见解。
基于语音的工具
像苹果Siri或亚马逊Alexa这样的基于语音的工具依靠NLP来理解与人类交互的疯狂。他们有大量的单词,句子和语法训练数据集来解释来自人类的问题或命令并对其进行处理。虽然它是关于语音的,但间接地它也被翻译成文本,并且由语音产生的文本通过NLP系统来产生结果。
信息提取
Web报废是使用python代码从网页中提取数据的常见示例。这里它可能不是严格基于NLP,但它确实涉及文本处理。例如,如果我们只需要提取html页面中存在的标题,那么我们在页面结构中查找h1标记,并找到一种方法来仅在这些标记之间提取文本。这需要来自python的文本处理程序。
垃圾邮件过滤
通过分析主题行中的文本以及消息的内容,可以识别和消除电子邮件中的垃圾邮件。由于垃圾邮件通常是批量发送给许多收件人,即使他们的主题和内容变化很小,也可以进行匹配和标记以将其标记为垃圾邮件。再次,它需要使用NLTK库。
语言翻译
计算机化的语言翻译在很大程度上依赖于NLP。随着在线平台中使用越来越多的语言,将语言从一种语言自动转换为另一种语言变得必不可少。这将涉及编程以处理翻译中涉及的语言的词汇,语法和上下文标记。同样,NLTK用于处理这些要求。
情绪分析
为了找出对电影表现的整体反应,我们可能需要阅读来自观众的数千条反馈帖。但也可以通过词语和句子分析使用积极的负反馈分类自动化。然后测量正面和负面评论的频率,以找出观众的整体情绪。这显然需要分析观众所写的人类语言,而NLTK在这里用于处理文本。