以数据为中心 的AI v.s. 以模型为中心的AI

原文:Data-Centric AI vs. Model-Centric AI · Introduction to Data-Centric AI

当你学习关于机器学习相关的课程时,通常是给你一个清洁好的数据,你的任务是利用这个数据集训练出一个最好的模型。所有在机器学习课程教的技巧都是为了这个目标:模型(神经网络,决策树等等),训练技巧(正则化,优化算法,损失函数等等),以及模型/超参数选择(还有模型融合,集成学习)。这种方式我们称为以模型为中心的AI

当我们从事现实世界的机器学习相关工作时,你的公司或者你的用户并不关心你是如何应用一些聪明的模型技巧在质量很好的数据上去训练出一个预测效果很好的模型。跟课堂上不同,现实世界的应用中数据是没有处理好的。你可以随意改变数据集甚至付费收集更多数据使得你的模型表现更好。现实世界的数据通常质量不好一团糟,所以提高数据质量是构造准确模型的前提。老练的数据科学家懂得比起鼓捣模型,探索和处理好数据集更加值得投入精力,但是这个过程对于大型数据集会有点繁复。提高数据质量可以通过人工去做,凭借人们的直觉或专业知识。

与人工处理数据集的方式相比,以数据为中心的AI是使用AI技术更加系统地诊断和处理现实世界中数据集的问题。以数据为中心的AI的形式有:

1.使用AI算法理解数据,然后用这些信息提高模型表现。Curriculum learning是一种这样的算法。

2.AI算法改变数据以提高模型表现。Confident learning是一种这样的算法,这种算法中机器学习模型在一个去除糟糕样本的过滤好的数据集上训练。

在以上例子中,通过把算法应用在训练好的AI模型的输出上,算法自动评估那个样本是糟糕。

适用于监督型机器学习的方法

以数据为中心的AI的工作流程大概是这样:

1.探索数据,处理基本的数据问题,然后转换数据使得数据可以用于机器学习。

2.在整理好的数据集上训练一个机器学习基线模型。

3.使用这个模型帮助你提升数据的质量。(用本教程的技巧)

4.在提升质量之后的数据集上使用不同的模型技巧提高模型的表现,最后得到最好的模型。

以数据为中心的AI例子

这个领域的方法论包括:

--离群检测以及去除离群点(处理数据集中的异常值)

--错误检测以及纠正(处理数据集中不正确的数据/标签)

--达成共识(从多个来源的注释者的决定中得到一个真正的决定,比如决定一个样本的标签的时候,可以综合多个打标签的注释者的意见)

--数据增量(给数据集增加样本)

--特征工程和特征选择(对数据的表达的处理)

--积极学习active learning(下一个打标签的样本要选择信息量最大的样本)

--知识表示curriculum learning(把样本从最简单到最复杂排序)

Tesla的自动驾驶系统对比竞争者的更加先进。他们指出数据工程是关键:(图片来源 https://vimeo.com/274274744)

为什么我们需要以数据为中心的AI

质量差的数据每年花费美国3万亿美金。数据质量问题是每个行业都要面对的问题而且花费巨大。随着数据集增大,如果没有算法的帮助,处理大型数据集是不可能的。在大量数据上训练的机器学习模型比如ChatGPT很大程度依赖人力(人类的反馈)去处理低质量的数据的缺陷。但是全靠人力也不能处理所有的数据缺陷。我们需要自动化的方法和系统化的工程法则去确保机器学习模型能够在清洁的数据上训练。机器学习已经深入到我们生活的方方面面,医疗保健、金融、交通等等,系统以一种可靠的方式得到训练是很有必要的。

近年的研究强调了以数据为中心的AI在各种应用中的价值。对于使用含有有噪声标签的数据训练的图片分类,最近有一项基准研究在逐渐增加著名的Cifar-10数据集噪声率的情况下,使用不同的方法训练模型。研究显示对数据集做一些适应性的改变,然后使用简单的模型训练比起使用噪声数据集训练的复杂模型的准确率更高。

本课程所讲的技巧适用于大部分监督刑机器学习模型以及训练模型的方法。

一些参考:(扩展阅读)

[G21] Press, G. Andrew Ng Launches A Campaign For Data-Centric AI. Forbes, 2021.

[B09] Bengio, Y., et al. Curriculum Learning. ICML, 2009.

[NJC21] Northcutt, C., Jiang, L., Chuang, I.L. Confident Learning: Estimating Uncertainty in Dataset Labels. Journal of Artifical Intelligence Research, 2021.

[R16] Redman, T. Bad Data Costs the U.S. $3 Trillion Per Year. Harvard Business Review, 2016.

[S22] Strickland, E. Andrew Ng: Unbiggen AI. IEEE Spectrum, 2022.

[C23] Chiang, T. ChatGPT is a Blurry JPEG of the Web. New Yorker, 2023.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/132538.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

需永远在线的游戏公司,如何在线替换开源存储?

小帅是一个酷爱游戏的玩家,他玩一款游戏已经很久了,始终乐在其中。 这款游戏风靡全球,在中国手游出海榜单中,长期位居榜首。 他不知道的是,就在他玩游戏的过程中,这款游戏的出品公司,其实已经…

什么是存储服务器?

随着互联网的发展,越来越多的信息会在网络上暴露,所以企业就会更加重视数据,因此更加安全可靠的数据存储服务器受到了大多数人的信赖,今天就让小编带大家了解一下什么是存储服务器吧! 存储服务器的含义。存储服务器是…

Nginx解析漏洞

常见的解析漏洞&#xff1a; IIS 5.x/6.0解析漏洞 IIS 7.0/IIS 7.5/ Nginx <0.8.3畸形解析漏洞 Nginx <8.03 空字节代码执行漏洞 Apache解析漏洞 Nginx文件解析漏洞 对于任意文件名&#xff0c;例如:cd.jpg在后面添加/x.php后&#xff0c;即可将文件作为php解析。 原理…

SpringMVC简介

SpringMVC概述 SpringMVC是一个基于Spring开发的MVC轻量级框架&#xff0c;Spring3.0后发布的组件&#xff0c;SpringMVC可以和Spring无缝整合&#xff0c;使用DispatcherServlet作为前端控制器&#xff0c;且内部提供了处理映射器、处理适配器、视图解析器等组件&#xff0c;…

RecyclerView 空白区域点击事件

在项目中使用RecyclerView展示列表数据&#xff0c;用了GridLayoutManager&#xff0c;在遇到item个数不满足一行时&#xff0c;会在页面右侧透出空白位&#xff0c; 如下图所示. 目前点击空白位是没有点击响应事件的&#xff0c;我们想实现点击响应以扩大用户可以进入LandingP…

PyTorch 深度学习之处理多维特征的输入Multiple Dimension Input(六)

1.Multiple Dimension Logistic Regression Model 1.1 Mini-Batch (N samples) 8D->1D 8D->2D 8D->6D 1.2 Neural Network 学习能力太好也不行&#xff08;学习到的是数据集中的噪声&#xff09;&#xff0c;最好的是要泛化能力&#xff0c;超参数尝试 Example, Arti…

S/4 HANA 大白话 - 财务会计-4 应付、应收账款

Business Partner 业务伙伴 业务伙伴现在包括供应商伙伴和客户伙伴。 只要不是个搞空壳玩泡沫的公司&#xff0c;你基本都得有从供应商那里拿原材料或者购买零部件&#xff0c;然后进行生产&#xff0c;再售卖给客户。你得和银行打交道&#xff0c;同时也得有员工。所有这些关…

LeetCode【11】 盛水最多的容器

题目&#xff1a; 分析&#xff1a; 1、双指针&#xff0c;储水为&#xff08;R-L &#xff09;* 二者较小高度&#xff0c;如题目&#xff0c;(9-2)* 7 49 2、双指针向中间靠&#xff0c;每次移动较矮的指针。 代码&#xff1a; public int maxArea(int[] height) {int l…

关键词搜索淘宝商品数据接口,淘宝商品列表数据接口

关键词搜索淘宝商品数据接口可以通过淘宝开放平台获取商品列表数据&#xff0c;包括商品标题、价格、优惠价、收藏数、月销售量、SKU图、详情页图片等。 通过调用淘宝开放平台的API接口&#xff0c;可以实现关键词搜索淘宝商品列表数据&#xff0c;获取商品详情页数据信息&…

【FreeRTOS】【STM32】03 FreeRTOSConfig.h头文件简介与修改

基于[野火]《FreeRTOS%20内核实现与应用开发实战—基于STM32》.pdf FreeRTOSConfig.h头文件是FreeRTOS各项功能的打开与关闭 FreeRTOSConfig.h头文件简介 之前也说过了&#xff0c;FreeRTOSConfig.h文件可以添加在工程中任意文件夹&#xff0c;只需要在路径中添加好了就行。…

ARM作业2

.设置按键中断&#xff0c;按键1按下&#xff0c;LED亮&#xff0c;再按一次&#xff0c;灭 按键2按下&#xff0c;蜂鸣器响。再按一次&#xff0c;不响 按键3按下&#xff0c;风扇转&#xff0c;再按一次&#xff0c;风扇停 头文件key_it.h #ifndef __KEY_IT_H__ #define …