NLP(自然语言处理)

什么是 NLP?

自然语言处理 (NLP) 将计算语言学(基于规则的人类语言建模)与统计和机器学习模型相结合,使计算机和数字设备能够识别、理解和生成文本和语音。

NLP 是人工智能 (AI) 的一个分支,是应用程序和设备的核心,可以

  • 将文本从一种语言转换成另一种语言
  • 对输入的命令或口头命令做出响应
  • 根据语音识别或验证用户
  • 对大量文本进行概括总结
  • 评估文本或语音的意图或情感
  • 按需生成文本、图形或其他内容

通常都可以实时完成。如今,在日常生活中,大多数人都会通过多种形式与 NLP 互动,如语音操作的 GPS 系统、数字助理、语音转文本听写软件、客服聊天机器人以及其他为消费者提供便利的系统。此外,NLP 在企业解决方案中也发挥着越来越大的作用,可以帮助简化和自动化业务运营、提高员工生产力并简化任务关键型业务流程。

NLP 任务

人类语言充满了歧义,因此,要编写能准确确定文本或语音数据预期含义的软件非常困难。同音异义词、同音异形词、讽刺、习语、隐喻、语法和用法例外、句子结构的变化 – 这些只是人类语言中不规则现象的少数例子,我们尚且需要花费数年才能掌握,如果想让自然语言驱动的应用程序发挥作用,程序员必须让这些应用程序从一开始就能准确地识别和理解人类语言。

一些 NLP 任务可以分解人类文本和语音数据,帮助计算机理解所采集的内容。其中包括:

语音识别,也称为语音转文本,是将语音数据以可靠的方式转换为文本数据的任务。任何遵循语音命令或回答口头问题的应用程序都需要语音识别功能。语音识别之所以特别具有挑战性,是因为人们说话的方式 – 语速很快,单词含糊不清,各种重音和语调,不同口音,而且经常带有语法错误。

词性标注,也称为语法标注,是根据特定单词或文本的用法和上下文确定其词性的过程。词性标注将“I can make a paper plane”中的“make”识别为动词,将“What make of car do you own?”中的“make”识别为名词。

词义消歧用于为多义单词选择含义,通过语义分析过程确定单词在特定上下文中最准确的意思。例如,词义消歧有助于区分动词“make”在“make the grade”(达到)和“make a bet”(做出)中的含义。

命名实体识别 (NEM) 用于将单词或短语识别为有意义的实体。NEM 可将“Kentucky”识别为地点或将“Fred”识别为男士姓名。

共指消解用于确定两个词是否以及何时指代同一实体。最常见的例子是确定某个代词所指的人或物体(例如,“她”=“Mary”),但它也可能涉及识别文本中的隐喻或习语(例如,“熊”不是动物,而是一个身材魁梧、毛发旺盛的人)。

情感分析尝试从文本中提取主观特质 – 态度、情感、讽刺、困惑、怀疑等。

自然语言生成有时被描述为语音识别或语音转文本的反向操作;它的任务是将结构化信息转换为人类语言。

NLP 使用场景示例

在许多现代的实际应用程序中,自然语言处理是机器智能背后的驱动力量。以下是几个示例:

垃圾邮件检测:您可能认为垃圾邮件检测不是一种 NLP 解决方案,但最好的垃圾邮件检测技术正是使用 NLP 的文本分类功能来扫描电子邮件,查找通常表明是垃圾邮件或网络钓鱼的语言。这些迹象可能包括过度使用金融术语、典型的语法错误、威胁性语言、不恰当的紧迫感、公司名称拼写错误等。垃圾邮件检测是专家认为为数不多的“基本已解决”的 NLP 问题之一(尽管您可能会认为这与您的电子邮件体验不符)。

机器翻译:Google Translate 就是 NLP 技术得到广泛应用的一个例子。真正有用的机器翻译不仅仅是将一种语言的单词替换成另一种语言。有效的翻译必须准确捕捉输入语言的含义和语气,并将其翻译为在输出语言中具有相同含义和预期效果的文本。机器翻译工具在准确性方面取得了很大的进步。测试任何机器翻译工具的一个好方法是,先将文本翻译成一种语言,然后再翻译回原始语言。有一个经常被引用的经典例子:不久前,将“心有余而力不足”从英语翻译成俄语,然后再翻译回英语,结果是“伏特加很好,但肉坏了”。现在的翻译结果是“心里渴望,但身体力量不足”,虽然这并不完美,但提振了人们对英俄翻译的信心。

虚拟代理和聊天机器人:苹果的 Siri 和亚马逊的 Alexa 等虚拟代理使用语音识别来识别语音命令和自然语言生成中的模式,以通过适当的操作或有用的意见做出回应。聊天机器人会用同样的魔法来响应键入的文本条目。其中的佼佼者还能学会识别人类请求的语境线索,并随着时间的推移利用这些线索提供更好的响应或选项。这些应用程序的下一项增强是回答问题的功能,即它们可以使用自己的话语,针对问题(无论它们是否预测到这些问题)提供有帮助的相关答案。

社交媒体情感分析:NLP 已成为从社交媒体渠道中发掘隐藏数据洞察分析的重要商业工具。情感分析可以分析社交媒体帖子、回复、评论等文本中使用的语言,以提取用户对产品、促销和活动的态度和情绪 — 公司可以将这些信息用于产品设计、广告活动等。

文本摘要:文本摘要利用 NLP 技术采集大量数字文本,为索引、研究数据库或没有时间阅读全文的繁忙读者创建摘要和概要。最好的文本摘要应用程序会使用语义推理和自然语言生成 (NLG) 为摘要添加有用的上下文和结论。

 

阅读剩余
THE END