读AI未来进行式笔记03自然语言处理技术

news/2025/3/18 18:42:08/文章来源:https://www.cnblogs.com/lying7/p/18231848

1. AI伙伴

1.1. 作为AI能力的集大成者，AI伙伴融合了各种复杂的AI技术

1.2. 人类唯一可能超越AI的领域，只可能在机器无法触及之处，那是属于人类感性与直觉的领域

1.3. 要读懂人类，需要漫长而平缓的学习过程

1.4. AI塑造了我们，我们反过来也塑造了AI

1.5. AI的“思考模式”与人类的思考模式完全不同

1.6. 在很多任务上，人类会比机器更擅长

1.6.1. 如果AI的进步推动了人类的发展和进化，届时甚至会出现新的更能凸显人类智慧的任务

1.7. 应该把精力放在开发适合AI的、实用的应用程序上，并寻求人类与AI的良性共生，而不是纠结于基于深度学习的AI能否成为或者何时成为通用人工智能的问题

1.7.1. 只有人类才是智能的黄金标杆──这是人类的一种自恋倾向

2. 自然语言处理技术

2.1. NLP

2.2. AI研究的核心目的，是希望计算机拥有与人类一样的智慧和能力

2.3. 语言，则是人类最重要的思维、认知与交流的工具

2.3.1. 人类智慧的每一次进步都离不开语言“开路”

2.3.2. 自然语言是人类通过社会活动和教育过程习得的语言，包括说话、文字表达以及非语音的交际语言，这种习得的能力或许来自先天

2.4. 如何让计算机有效地理解人类语言，进而实现人机之间有效的信息交流，被视为AI领域最具挑战性的技术分支

2.4.1. “图灵测试”，就是把利用自然语言进行交流的能力当作判断机器是否已达到拟人化“智能”的关键指标

2.4.2. 如果机器在对话交流中做到成功地让人类误认为它也是“人类”，就意味着机器通过了图灵测试

2.5. 对NLP的研发推进是AI科学家的重要议题，他们希望通过算法模型让AI拥有分析、理解和处理人类语言的能力，甚至可以自己生成人类语言

2.6. 在“学习”方面，深度学习技术具有得天独厚的优势——不仅可以轻松掌握复杂的词汇关系和语言模式，还能凭借“计算机学生”的特性，通过源源不断的数据汲取更多知识，进而实现能力的扩展

2.7. 先提出假设，然后验证假设，这就是遵循求真原则的科学活动的过程模式

3. 有监督的NLP

3.1. “有监督”意味着在AI模型的学习阶段，每一次输入时都要提供相应的正确答案

3.2. 把上百万个英语句子，以及与其一一对应的由专业翻译人员翻译好的上百万个法语句子，作为模型的输入―输出训练数据

3.3. 有监督学习的方法还可以用于语音识别（将语音转换成文字）、语音合成（将文字转换成语音）、光学字符识别（将手写体或图片转换成文字）

3.4. 在处理这类自然语言方面的具体识别任务时，有监督学习非常有效，AI的识别率超过了大多数人类

3.5. 自然语言理解

3.5.1. 有监督的NLP模型的训练数据应尽量穷尽针对同一种意图所可能使用的尽可能多的表达方式，但是只有经过人工标注的数据才能训练出有效的语言理解模型

3.5.2. 无法实现通用性的自然语言理解

3.5.2.1. 一方面不可能有这样的通用性应用

3.5.2.2. 另一方面也无法进行通用性的数据标注

3.5.2.3. 试图给世界上所有的语言数据都打上标签也不现实，因为其背后所需要耗费的时间和成本几乎是无法想象的

3.6. 数据标注

3.6.1. 这个职业在过去20年里不断发展壮大，甚至成了新的就业方向

4. 自监督的NLP

4.1. 自监督，就是在训练NLP模型时，无须人工标注输入、输出数据，从而打破了有监督学习的技术瓶颈

4.1.1. 自监督学习方法名为“序列转导”（Sequence Transduction）

4.2. 2017年，谷歌的研究人员发明了一种新的序列转导模型，称为Transformer，在做了海量语料训练后，它可以具备选择性记忆机制和注意力机制，选择性地记住前文的重点及相关内容

4.2.1. 这种NLP模型在学习语言时所依靠的不是人类语言学理论中的词形变化规律和语法规律，而是依靠AI自创的结构和抽象概念，从数据中汲取知识，然后将其嵌入一个巨大的神经网络

4.2.2. 整个系统的训练数据完全来源于自然语言环境，没有经过人工标注

4.2.3. 以丰富的自然数据和强大的数据处理功能为基础，系统可以建立自己的学习模式，进而不断强化自己的能力

4.3. 一些输入法的“智能预测”功能，可以根据用户的习惯，在已输入词语的基础上进行关联词语推荐或长句补全

4.4. 百度和谷歌等搜索引擎也引入了AI搜索模型，它们会在搜索框里自动补全关键字，帮助用户更快地锁定搜索目标

4.5. GPT-3

4.5.1. 最著名的“通用预训练转换器3”（Generative Pre-trained Transformer 3，GPT-3）在2020年问世了

4.5.2. OpenAI最令人兴奋的研究成果，它有一个巨大的序列转导引擎，建立了一个庞大的神经网络模型来学习分析语言，这个模型几乎覆盖了所有我们能够想象得到的概念

4.5.3. 需要的计算资源也是惊人的：它在全球顶级的超级计算机平台上进行训练，使用了当时世界上最大的语言数据集——处理前容量超过45TB

4.5.3.1. 如果一个人想要读完这个数据集，必须耗费50万次生命周期

4.5.4. 在具备多种语言功能的同时，GPT-3的庞大网络也可以根据某一特定领域的海量数据或与该领域相关的附加信息，快速掌握这一领域的语言

4.5.4.1. GPT-3的这种“迁移学习”与人类孩童的学习过程类似：人类孩童在学习诗歌语言或者历史、计算机编程等领域的专业术语之前，要做的第一件事情就是学会说母语

4.5.5. GPT-3在抽象概念、因果推理、解释性陈述、理解常识以及（有意识的）创造力等方面的能力也很弱

4.5.6. 因为GPT-3吸收了海量的来自人类的数据，所以人类的主观偏见与恶意也就难免被它一同吸收了

4.5.7. GPT-3的这些漏洞可能会被别有用心之人利用，比如针对不同人的不同特性定制某些内容，来直接影响人们对事物的想法和判断

4.5.8. 完全不知道自己说的这段话是什么意思，其根本原因在于GPT-3不具备自我认知的能力

5. NLP应用平台

5.1. GPT-3最令人兴奋的潜力在于，它有望成为一个崭新的平台或底层架构

5.1.1. 让用户与历史人物穿越时空对话的聊天机器人

5.1.2. 根据用户按下的吉他音符自动完成后续乐曲创作的作曲器

5.1.3. 依照用户给出的半张图片自动补全整幅画作的图像生成器

5.1.4. 有一款名为DALL.E的应用，能够按照用户输入的随机文本生成相应的图片

5.2. NLP平台还可能成为下一代搜索引擎，回答人们提出的任何问题

5.3. NLP平台还将记录一些客观发生的基本事实

5.3.1. 体育比赛的结果或股票市场的最新动态

5.3.2. 从一段长文字中提炼出要点，以便节省读者的阅读时间

5.3.3. 会成为记者、金融分析师、作家以及任何文字工作者的绝佳工具

5.4. 提升机器“智能”的最佳途径是开发通用计算方法（如深度学习、GPT-3），在数据持续增加和算力持续升级的基础上，这些通用计算方法会使机器逐渐变得更“智能”

6. 教育领域的AI

6.1. 在过去的100年中，科技浪潮给我们的工作、生活、沟通、出行甚至娱乐方式都带来了翻天覆地的变化

6.2. 除了在2020年以来的新冠肺炎疫情期间全世界的孩子被迫临时改成在线学习外，今天的教育，无论在本质上还是在教学形式上，同100年前相比，几乎没有什么差别

6.3. 教师的部分工作可以利用先进的AI技术实现自动化、标准化，特别是一些重复性高的工作

6.4. AI还能够协助教师策划、设计丰富的课堂形式与教学内容，为学生提供更好的沉浸式互动体验，比如让历史人物“复活”并与学生对话

6.5. AI在教育领域最需要挖掘的潜能，就是为未来的孩子提供个性化的学习方式

6.6. AI导师能够注意到什么方式或内容会让学生的瞳孔放大、变得兴奋，什么方式或内容会让学生的眼皮发沉、开始走神

6.7. 人类教师

6.7.1. 第一个重要角色是做学生的个性化人生导师

6.7.1.1. 人类教师有着机器所无法取代的人性光芒，能够理解学生的心理及情绪，加上人类教师能够与在教学中承担重复性、标准化任务的AI助教无缝配合

6.7.1.2. 把更多的时间用在培养学生的价值观、性格、情商上，以及培养学生的批判性思维、创造力、应变能力等非知识性的软实力上

6.7.2. 第二个重要角色是对AI导师、AI伙伴的工作进行前瞻性的规划及指导，定义下一个阶段的目标，以便进一步满足学生的需求，甚至主动探索学生在未来可能出现的新需求，帮助学生拓展发展领域

6.8. 在AI承担了一部分教育工作的任务之后，基础教育的成本将降低，从而使更多的孩子能够享有公平接受教育的机会

6.8.1. 教育创新企业或机构可以研发更多的边际成本几乎为零的AI应用，真正实现教育资源均等化

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/720132.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

PyQT5之单行文本输入到多行显示窗

from PyQt5 import QtWidgets from PyQt5 import QtCore, QtGui import sys import cv2class TextDemoPanel(QtWidgets.QWidget):def __init__(self, *args, **kwargs):super().__init__(*args, **kwargs)select_btn = QtWidgets.QPushButton("输入")self.line_text …

ipsec-vpen核心demo

撸起袖子加油干！！！

什么是Transform转换

在WPF框架中有一个抽象类叫Transform，它定义了实现二维平面中的转换的功能。它包括旋转 (RotateTransform)、缩放 (ScaleTransform)、倾斜 (SkewTransform) 和平移 (TranslateTransform)4个子类。它定义如何将点从一个坐标空间映射或转换到另一个坐标空间。此映射由转换 Matr…

Kubernetes – NodePort 服务

Kubernetes 中的 NodePort 服务是一种用于将应用程序公开到互联网的服务，最终用户可以从互联网访问它。如果您创建 NodePort 服务，Kubernetes 将分配 (30000-32767) 范围内的端口。最终用户可以使用节点的 IP 地址访问该应用程序。 Kubernetes 服务的类型在Kubernetes 中，有…

造车新势力盘点

造车新势力盘点雷军大声疾呼：“大家不要在小问题上卷了，没有价值！” 余承东表态：“要卷价值而不是卷价格！卷智能化、自动化，卷安全、高质量，卷卓越的、舒享的用户体验。” 6月1日，在第二届未来汽车先行者大会上，雷军、余承东等车企负责人发表了“反内卷”宣言。确实…

未来门店画像

众多互联网企业，正在致力于帮助传统线下门店，进行数字化改造升级，场景、体验、品类重构、数字化……如今，各大零售商、品牌商正在朝着各个方向，努力打造“下一代零售门店”。 01 用户心智从“单点突破”到“多点穿透” 现在消费者已经从单纯“找”货，升级成“找”货、“…

【git实际应用填坑解决】

工作中git填坑之路，有时候用小乌龟，有时候也用git命令。 - git 如何管理多个项目仓库？ 1. git subtree 实现管理多仓库 A、 B 、 lib 都是仓库，其他lib是公共模块，在A,B中都有使用优点：提交方便，直接在当前项目目录就可修改公共模块lib并提交在项目A 和 B 中创建公共…

36氪研究院 | 2023年中国工业软件行业洞察报告

36氪研究院 | 2023年中国工业软件行业洞察报告 36氪研究院2023-04-12 10:53关注国产替代蓝海市场，ChatGPT掀起智能化浪潮1、行业定义及发展历程工业软件指应用于工业领域，以提高工业企业研发、生产、管理水平和工业装备性能为目的的应用软件，包括在工业互联网平台上运行的工…

git实际应用填坑解决

Kubernetes – 节点

Kubernetes 节点是实际工作发生的工作器或主机。每个 Kubernetes 节点都有执行 Pod 所需的服务，并由控制平面控制。每个 Kubernetes 节点可以有多个 Pod，Pod 内有容器运行。每个节点中有 3 个进程用于调度和管理这些 Pod。 Container runtime：需要容器运行时来运行在 pod 内…

leetcode 876. 链表的中间结点（快慢指针法）

题目描述 https://leetcode.cn/problems/middle-of-the-linked-list/description/给你单链表的头结点 head ，请你找出并返回链表的中间结点。如果有两个中间结点，则返回第二个中间结点。示例 1：示例 2：思路分析用两个指针 slow 与 fast 一起遍历链表。slow 一次走一步，…

浅谈如何优化 Milvus 性能

浅谈如何优化 Milvus 性能发布于 2023-01-10 14:53:303.5K0举报文章被收录于专栏：Reinvent Data ScienceMilvus 是全球最快的向量数据库，在最新发布的 Milvus 2.2 benchmark[1] 中，Milvus 相比之前的版本，取得了 50% 以上的性能提升。值得一提的是，在 Master branch 的最新…