文章类别:首页>数据智能>AI

阿里云人工智能ACA认证(7)—自然语言处理基础

发布时间:2025-05

浏览量:82

本文字数:2114

读完约 8 分钟

一、基本介绍

自然语言理解:

    所有支持机器理解文本内容的方法模型或任务的总称,是推荐、问答、搜索等系统的必备模块

自然语言生成:

    将非语言格式的数据转换成人类可以理解的语言格式,是翻译、协作等系统的必备模块

自然语言处理的发展趋势

智能人机交互

    不同语言、不同领域下的人机交互提升

    多语言交互从不同语言理解上升到不同文化的理解

多模态融合

        视频、图像、文本、语音等模态的全面融合

    在对话系统产品中应用效果显著

解决方案建设

    在每种场景领域都有特定的需求及其相应的场景数据

    模型结合场景数据进行训练能够更好地满足场景需求

行业知识库

    结合已有的知识和技术提高非结构化数据理解能力

    基于过去已知知识进行推理,理解行业事件知识

自然语言处理的数据基础

语料库

image.png

常见语料库

image.png

汉英区别

image.png

现代汉语的特点

image.png

技术体系

image.png

基础技术

image.png

二、详细技术介绍

分词

    将句子、段落、文章等长文本分解为以字词为单位的数据结构

    常见的方法包括最大匹配分词算法和最短路径分词算法

image.png

分词的难点

image.png

分词实现方法

最大匹配分词:

    以词典为依据,取词典中最长词长度作为第一次取字数量的长度

    在词典中进行匹配,然后逐字递减,在对应的词典中进行查找

    根据匹配的方向不同,分为正向匹配和逆向匹配

image.png

最短路径分词算法:

    首先将文本中的所有词匹配出来,构成词图,寻找从起始点到终点的最短路径

    词图中每个词的权重都是相等的,因此每条边的权重都为1

    两点之间的最短路径也包含了路径上其他顶点间的最短路径

image.png

词性标注

    在给定句子中判断每个词的语法范畴,确定其词性并加以标注的过程

    中文词性分类:名词、动词、形容词、副词、代词、介词、连词、数词、量词、助词、感叹词、拟声词

image.png

标注规范

    先将词分为名词、动词、形容词等,然后用“n”、“v”、“adj”等进行表示

image.png

关键词提取

    关键词即文本中一些“重要的”词,通过这些重要的词可以理解文本中心思想

    关键词提取质量,体现在关键词提取的准确性、全面性和代表性

    关键词提取的评价指标为词的权重

image.png

    关键词提取的实现包括两个步骤,第一步是获取文本的候选词,第二步则是对候选词进行打分

    输出的关键词是候选词中得分比较高的

image.png

    关键词提取算法一般分为有监督和无监督两类

image.png

命名实体识别

    识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等

    通常把对这些词的识别在词汇形态处理任务中独立处理

image.png

命名实体识别的标注方法

    三大类:实体类、时间类、数字类

    七小类:人名、机构名、地名、时间、日期、货币、百分比

    常用 BIOES-四位序列标注法

image.png

语法分析

    判断输出的字符串是否属于某种语言

    消除输入句子中词法和结构等方面的歧义

    分析输入句子的内部结构,如成分结构、上下文关系

image.png

语法分析的难点

    歧义和搜索空间

image.png

语法分析实现方法

    基于规则的方法是语法分析中的常用方法

    以“小明在快乐地学习”为例

image.png

文本向量化

    自然语言处理前,需要将文本表示成计算机可识别的数值形式

    一个语言模型来构建关于输入和输出之间的映射关系

    离散式词向量和分布式词向量是文本向量化中的常用方法

image.png

文本向量化的实现方法

离散式词向量

    常用 One-Hot 编码,每一个词特征都被表示成一个很长的向量

    其长度等于词表大小,当前词对应位置为1,其他位置为0

    无法衡量不同词之间的相似关系,无法突出词之间重要性的区别

image.png

分布式词向量

    将词转化成一种分布式表示,即将词表示成一个定长的连续的稠密向量

image.png

三、自然语言理解技术介绍与应用

文本分类

    能够对文本按照一定的分类标准进行自动分类标记

    机器自动化标注的文本数据具有一致性、高质量等特点

    利用待分类数据的特征与类别进行匹配,选择最优的匹配结果作为分类结果

image.png

应用场景

    从给定的标签集合中自动地给文本打标签

image.png

情感分析

    用户生产的带有主观性的文本有助于制定决策

    对带有情感色彩的主观性文本进行分析、处理、归纳和推理

实现方法:

    由预标记词汇组成的字典,使用词法分析器将输入文本转换为单次序列

    将每一个新的单词与字典中的词汇进行匹配,根据匹配结果提高或降低文本得分

image.png

应用场景:

image.png

文本纠错

    错误类型包含错别字、缺失字、冗余字、词语搭配错误和语法错误等

    能够评估和权衡相关因素,比人类更快、更准确地识别

image.png

实现方法:

    第一步错误检测,第二步错误纠正

    从字粒度和词粒度两方面来检测文本错误

    遍历所有的疑似错误位置,使用音似、形似等相关词替换错误位置的词

image.png

应用场景:

image.png

问答系统

    一个能回答任意自然语言形式问题的自动化系统

    能给对于一个指定问题,能够得到简短、精确的答案

image.png

实现方法:

    通常采用基于自由文本的方式实现

    属于开放域问答系统,能够回答一些答案存在于文档集合中的问题

image.png

应用场景:

    智能客服、快速检索

image.png

四、自然语言生成技术介绍与应用

文本标签生成

    生成的标签在一定程度上能够体现文本内涵

    是文本检索、文档比较、摘要生成、文档分类、聚类等文本挖掘研究的基础性工作

实现方法:

    采用计算权重的方式从候选集合中得到文本标签

    主要包括词性、词频、逆向文档频率、相对词频、词长等

image.png

应用场景:

    个性化推荐、主题聚合

image.png

文本摘要生成

    自动生成含原文本中重要信息的新文本内容

    通过机器自动输出简洁、流畅、保留关键信息的摘要

image.png

应用场景:

    自动报告生成、新闻标题生成、搜索结果预览

image.png

智能创作

    可分为人工智能自动写作和人工智能辅助写作两类

    具有作品制作高效、具有强大潜能、内容客观、节省人力成本等

image.png

应用场景:

    智能写诗、智能春联

image.png

应用方法:

image.png

五、实验:自然语言处理简单介绍



^