Skip to content

Latest commit

 

History

History
83 lines (55 loc) · 3.99 KB

1.自然语言处理入门介绍.md

File metadata and controls

83 lines (55 loc) · 3.99 KB

自然语言处理介绍

  • 语言是知识和思维的载体
  • 自然语言处理 (Natural Language Processing, NLP) 是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域。

NLP相关的技术

中文 英文 描述
分词 Word Segmentation 将连续的自然语言文本,切分成具有语义合理性和完整性的词汇序列
命名实体识别 Named Entity Recognition 识别自然语言文本中具有特定意义的实体(人、地、机构、时间、作品等)
词性标注 Part-Speech Tagging 为自然语言文本中的每个词汇赋予一个词性(名词、动词、形容词等)
依存句法分析 Dependency Parsing 自动分析句子中的句法成分(主语、谓语、宾语、定语、状语和补语等成分)
词向量与语义相似度 Word Embedding & Semantic Similarity 依托全网海量数据和深度神经网络技术,实现了对词汇的向量化表示,并据此实现了词汇的语义相似度计算
文本语义相似度 Text Semantic Similarity 依托全网海量数据和深度神经网络技术,实现文本间的语义相似度计算的能力
篇章分析 Document Analysis 分析篇章级文本的内在结构,进而分析文本情感倾向,提取评论性观点,并生成反映文本关键信息的标签与摘要
机器翻译技术 Machine Translating 基于互联网大数据,融合深度神经网络、统计、规则多种翻译方法,帮助用户跨越语言鸿沟,与世界自由沟通

场景案例

案例1(解决交叉歧义)

分词(Word Segmentation) :将连续的自然语言文本,切分成具有语义合理性和完整性的词汇序列

例句:致毕业和尚未毕业的同学。

分词:

  1. 毕业 尚未 毕业 同学
  2. 毕业 和尚 毕业 同学

推荐:

  1. 校友 和 老师 给 尚未 毕业 同学 的 一 封 信
  2. 本科 未 毕业 可以 当 和尚 吗

案例2(从粒度整合未登录体词)

命名实体识别(Named Entity Recognition):识别自然语言文本中具有特定意义的实体(人、地、机构、时间、作品等)

例句:天使爱美丽在线观看

分词:天使 美丽 在线 观看

实体: 天使爱美丽 -> 电影

推荐:

  1. 网页:天使爱美丽 土豆 高清视频
  2. 网页:在线直播爱美丽的天使

案例3(结构歧义问题)

词性标注(Part-Speech Tagging): 为自然语言文本中的每个词汇赋予一个词性(名词、动词、形容词等) 依存句法分析(Dependency Parsing):自动分析句子中的句法成分(主语、谓语、宾语、定语、状语和补语等成分)

评论:房间里还可以欣赏日出

歧义:

  1. 房间还可以
  2. 可以欣赏日出

词性:(???) 房间里:主语 还可以:谓语 欣赏日出: 动宾短语

案例4(词汇语言相似度)

词向量与语义相似度(Word Embedding & Semantic Similarity):对词汇进行向量化表示,并据此实现词汇的语义相似度计算。

例如:西瓜 与 (呆瓜/草莓),哪个更接近?

向量化表示: 西瓜(0.1222, 0.22333, .. ) 相似度计算: 呆瓜(0.115) 草莓(0.325) 向量化表示:(-0.333, 0.1223 .. ) (0.333, 0.3333, .. )

案例5(文本语义相似度)

文本语义相似度(Text Semantic Similarity):依托全网海量数据和深度神经网络技术,实现文本间的语义相似度计算的能力

例如:车头如何防止车牌 与 (前牌照怎么装/如何办理北京牌照),哪个更接近?

向量化表示: 车头如何防止车牌(0.1222, 0.22333, .. ) 相似度计算: 前牌照怎么装(0.762) 如何办理北京牌照(0.486) 向量化表示: (-0.333, 0.1223 .. ) (0.333, 0.3333, .. )