NLP的任务

如题所述

第1个回答  2022-06-28

本文整理自网络,主要是对自然语言处理能发展和落地的方向进行总结,也算是对自然语言处理常见任务的总结。

NLP的四大任务如下:

序列标注(Sequence labeling)是我们在解决NLP问题时经常遇到的基本问题之一。在序列标注中,我们想对一个序列的每一个元素标注一个标签。一般来说,一个序列指的是一个句子,而一个元素指的是句子中的一个词。比如信息提取问题可以认为是一个序列标注问题,如提取出会议时间、地点等。

序列标注一般可以分为两类:

命名实体识别(Named entity recognition, NER)是信息提取问题的一个子任务,需要将元素进行定位和分类,如人名、组织名、地点、时间、质量等。

举个NER和联合标注的例子。一个句子为:Yesterday , George Bush gave a speech. 其中包括一个命名实体:George Bush。我们希望将标签“人名”标注到整个短语“George Bush”中,而不是将两个词分别标注。这就是联合标注。

1.1 BIO标注

解决联合标注问题最简单的方法,就是将其转化为原始标注问题。标准做法就是使用BIO标注。

BIO标注:将每个元素标注为“B-X”、“I-X”或者“O”。其中,“B-X”表示此元素所在的片段属于X类型并且此元素在此片段的开头,“I-X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置,“O”表示不属于任何类型。

比如,我们将 X 表示为名词短语(Noun Phrase, NP),则BIO的三个标记为:

因此可以将一段话划分为如下结果:

我们可以进一步将BIO应用到NER中,来定义所有的命名实体(人名、组织名、地点、时间等),那么我们会有许多 B 和 I 的类别,如 B-PERS、I-PERS、B-ORG、I-ORG等。然后可以得到以下结果:

[图片上传失败...(image-b1cfb3-1609330627120)]

1.2 序列标注常用模型

选择双向LSTM的原因是:当前词的tag和前后文都有关。

1.3 序列标注具体任务

(1)分词

(2)词性标注(Part-of-Speech tagging ,POS tagging)

(3)命名实体标注(name entity recognition, NER)

2.1 分类的具体任务

(1)文本分类、情感分类

3.1 具体任务

(1)句法分析、蕴含关系判断(entailment)

这类任务一般直接面向普通用户,提供自然语言处理产品服务的系统级任务,会用到多个层面的自然语言处理技术。

4.1 具体任务

(1)机器翻译(Machine Translation,MT)

Encoder-Decoder的最经典应用,事实上这一结构就是在机器翻译领域最先提出的。

(2)文本摘要、总结(Text summarization/Simplication)

输入是一段文本序列,输出是这段文本序列的摘要序列。

(3)阅读理解(Reading Comprehension)

将输入的文章和问题分别编码,再对其进行解码得到问题的答案。

(4)语音识别

输入是语音信号序列,输出是文字序列。

(5)对话系统(Dialogue Systerm)

输入的是一句话,输出是对这句话的回答。

(6)问答系统(Question-Answering Systerm)

针对用户提出的问题,系统给出相应的答案。

(7)自动文章分级(Automatic Essay Grading)

给定一篇文章,对文章的质量进行打分或分级。

1. 词法分析(Lexical Analysis):对自然语言进行词汇层面的分析,是NLP基础性工作

2. 句子分析(Sentence Analysis):对自然语言进行句子层面的分析,包括句法分析和其他句子级别的分析任务

3. 语义分析(Semantic Analysis):对给定文本进行分析和理解,形成能勾够表达语义的形式化表示或分布式表示

4. 信息抽取(Information Extraction):从无结构文本中抽取结构化的信息

5. 顶层任务(High-level Tasks):直接面向普通用户,提供自然语言处理产品服务的系统级任务,会用到多个层面的自然语言处理技术

【1】序列标注中的BIO标注介绍,地址: https://blog.csdn.net/HappyRocking/article/details/79716212

【2】 http://nlpers.blogspot.com.au/2006/11/getting-started-in-sequence-labeling.html

【3】NLP 四大任务,地址: https://www.dazhuanlan.com/2019/08/21/5d5ca1e2826b9/

【4】NLP基本任务,地址: https://blog.csdn.net/lz_peter/article/details/81588430

【5】微信研究员解析深度学习在NLP中的发展和应用,地址: https://edu.csdn.net/course/play/8673

【6】从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史 - 张俊林的文章 - 知乎 https://zhuanlan.zhihu.com/p/49271699

相似回答
大家正在搜