小数据 vs 大数据:为AI另辟蹊径的可操作数据

在人工智能背景下,您可能已听说过“大数据”这一流行语,那“小数据”这一词呢,您有听说过吗?无论您听过与否,小数据都无处不在:线上购物体验、航空公司推荐、天气预报等均依托小数据。小数据即一种采用可访问和可操作格式,且易于人类理解的数据。通常,数据科学家会利用小数据分析现状。 在机器学习(ML)领域,小数据的应用越来越多,这很大可能是因为数据可用性的普遍增强,以及新数据挖掘技术的试验。随着AI在各行各业的发展,数据科学家越来越多地关注小数据,因为小数据只需要低水平的计算能力,且易于使用。  

 

小数据与大数据

与大数据相比,小数据到底有何不同? 大数据由大块的结构化和非结构化数据组成。大数据规模庞大,比小数据更难理解和分析,需要高水平的计算机处理能力来解释。 小数据能够为公司提供可操作的洞察,而不是像大数据分析一样,需要复杂的算法。因此,公司不需要在数据挖掘过程投入太多。通过应用计算机算法,可以将大数据转换成小数据。这些计算机算法将数据转换成可操作的小数据块,每个小数据块都是大数据集的组成部分。 大数据转换成小数据的一个示例:在品牌发布期间,对社交媒体进行监控。网上每分每秒都会涌现大量的社交媒体帖子。数据科学家需要根据发布平台、时间段、关键词或其他相关特征,对数据进行筛选。这一过程将大数据转换成更易于管理的数据块,可以从中获取相关洞察。  

小数据的优势

在上文中,我们提及了小数据较之大数据的优势,但有几点仍值得强调。 大数据的管理难度高:大规模使用大数据是一项艰巨任务,数据分析需要依靠强大的计算机能力。 小数据的管理难度低:小数据块分析的效率高,不需要投入太多的时间和精力。这意味着小数据比大数据更具有可操作性。 小数据无所不在许多行业已在广泛应用小数据。例如,社交媒体提供了大量可操作的数据,这些数据的用途各异,比如市场营销或其他用途。 小数据关注终端用户:通过小数据,研究人员可以关注终端用户,将用户需求放在首位。小数据可以用来解释终端用户的行为动机。 在许多应用场景中,小数据是一种快速、有效的分析方法,可以帮助我们深入了解各行业的客户。  

机器学习中的小数据处理方法

监督学习是最传统的机器学习方法,是指利用大量标注的训练数据来训练模型。但除此以外,还有许多模型训练方法。其中,还有很多训练方法成本效益高、耗时低,越来越备受青睐。虽然这些方法要经常依赖于小数据,但在这种情况下,数据质量变得至关重要。 当模型只需要少量数据或模型训练数据不足时,数据科学家就会使用小数据。此时,数据科学家可以使用以下任何一种机器学习技术。

少样本学习

通过少样本学习技术,数据科学家为机器学习模型提供少量训练数据。少样本学习技术经常应用于计算机视觉领域。在计算机视觉中,模型可能不需要很多示例来识别某一对象。例如,如果具有用于解锁智能手机的面部识别算法,则无需数千张您的照片便可开启手机。手机只需要几张照片,就可以开启安全功能。 少样本学习技术成本低且工作量小。在模型处于完全监督学习状态而训练数据不足时,就非常适合使用少样本学习。

知识图谱

知识图谱属于二级数据集,因为知识图谱是通过筛选原始的大数据而形成的。知识图谱由一组具有定义含义并描述特定域的数据点或标签组成。例如,一个知识图谱可能由一系列著名女演员名字的数据点组成,共事过的女演员之间以线(或称之为边)连接起来。知识图谱是一种非常有用的工具,以一种高度可解释和可重复使用的方式组织知识。

迁移学习

当一个机器学习模型作为另一模型的训练起点,以帮助此模型完成相关任务时,就需要用到迁移学习技术。从本质上讲,是将一个模型的知识迁移到另一个模型。以原始模型为起点,再使用额外数据来进一步训练模型,从而培养模型处理新任务的能力。如果新任务不需要原始模型的某些构成部分,也可以将其删除。 在自然语言处理和计算机视觉等需要大量计算能力和数据的领域,迁移学习技术尤为有效。应用迁移学习技术可以减少任务的工作量和所需时间。

自监督学习

自监督学习的原理是,让模型从现有的数据中收集监督信号。模型利用现有数据来预测未观测到的或隐藏的数据。例如,在自然语言处理中,数据科学家可能会在模型中输入一个缺少单词的句子,然后让这个模型预测所缺少的单词。从未隐藏的单词中获得足够的背景线索后,模型便学会识别句中隐藏的单词。

合成数据

当给定数据集存在缺失,而现有数据无法填补时,就可以利用合成数据。比较普遍的示例是面部识别模型。面部识别模型需要包含人类全部肤色的面部图像数据;但问题是,深色人脸的照片比浅色人脸的照片数据要少。数据科学家可以人工创建深色人脸数据,以实现其代表的平等性,而不是创建一个难以识别深色人脸的模型。但机器学习专家必须在现实世界中更彻底地测试这些模型,并在计算机生成的数据集不足时,添加额外的训练数据。 本文所提到的方法并不详尽,但也展现出机器学习多方向发展的前景。一般而言,数据科学家正在减少使用监督学习技术,转向尝试依赖小数据的方法。  

数据科学总监Rahul Parundekar的专业洞察

明确小数据的“小”并不代表数据量小,这一点尤为重要。小数据是指使用符合需求的数据类型构建模型,从而生成商业洞察和实现自动化决策。我们经常会看到有人对AI功能期望过高,仅仅收集几张图片数据,就期望获得一个高质量的模型,但这不是我们在这里要讨论的内容。我们讨论的是,找出最适合用于模型构建的数据,在实际部署时,模型可以输出正确内容,满足您的需求。 以下是在创建“小”数据集时需要谨记的一些事项:

数据相关性

明确数据集构成数据的类型,选择正确的数据。您应确保数据集只包含模型在实践中(或生产中)接触到的数据类型。例如,如果您对一条生产输送线的一种产品进行缺陷检测,您就应该准备一组包含有缺陷和无缺陷零件、传送带上无物体的图像数据集,并输入安装在这条生产输送线上的摄像机中。

数据多样性与重复性

重要的是,涵盖模型在实践中可能接触到的所有数据应用场景,且要保证各类数据之间的平衡。不要使用已有数据来填充数据集,以避免出现数据填充过度问题。在缺陷检测示例中,您要确保模型可以捕获无缺陷物品、有不同类型缺陷的物品,无论是在工厂车间不同的照明条件下,在传送带上的各种旋转和位置,还是在维护模式下可能会出现的几个样品。因为没有缺陷的成品都一样,您不需要过度填充这类数据。另一个不必要重复的示例是变化很少或没有变化的视频帧。

依靠强劲技术构建

上文提及的小数据处理技术提供了坚实的技术基础。也许,您可以从迁移学习技术中获益,这种技术将经过训练且性能较佳的模型的知识迁移到相关领域的另一模型,并利用小数据来修正新模型。对于缺陷检测示例,这可能是您先前训练过的另一个缺陷检测模型,而不是修正基于MS COCO数据集来训练的模型,这与您在传送带线场景上的缺陷检测不同。

以数据为中心的AI与以模型为中心的AI

AI行业的最新研究表明,如果通过合适的数据训练模型,模型性能会受到更大的影响。通过找到边缘数据和数据差别,就可以产生更佳结果,而不是使用多个超参数、不同的模型架构,总之,就是假设有能力的数据科学家会“弄清楚”。如果缺陷检测模型无法准确地检测某些类型的缺陷,您应该投入更多精力来增加这些类型的图像数据,而不是尝试不同的模型架构或超参数优化。

与训练数据专家合作

对于以数据为中心的AI,您也希望将调试工作集中在领域专家更擅长的数据工作上,而不是数据科学家擅长的模型工作上。在模型失败的情况下,与领域专家一起确定模式,并假设模型可能的失败原因。这有利于帮助您确定所需的正确数据。例如,对象缺陷工程师专家可以帮助您确定模型所需的正确数据的优先级,清理上文提到的噪音或不需要的数据,甚至可能会指出,数据科学家可能用于选择更好的模型架构的细微差别。 总而言之,小数据比大数据更“密集”。您希望在尽可能小的数据集中获得最高质量的数据,使数据具有成本效益,并且可以通过上文所述的任一种技术来构建您的“冠军”模型。  

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/69884.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

手机商城网站的分析与设计(论文+源码)_kaic

目录 摘 要 1 1 绪论 2 1.1选题背景意义 2 1.2国内外研究现状 2 1.2.1国内研究现状 2 1.2.2国外研究现状 3 1.3研究内容 3 2 网上手机商城网站相关技术 4 2.1.NET框架 4 2.2Access数据库 4 2.3 JavaScript技术 4 3网上手机商城网站分析与设…

RISC-V公测平台发布 · 7-zip 测试

简介 7-Zip 是一个开源的压缩和解压缩工具,具有高压缩比和快速解压缩的特点。除了普通的文件压缩和解压缩功能之外,7-Zip 还提供了基准测试功能,通过压缩和解压缩大型文件来评估系统的处理能力和性能。 7-Zip 提供了一种在不同压缩级别和多…

uniapp条形码实现

条形码在实际应用场景是经常可见的。 这里教大家如何集成uniapp条形码。条形码依赖类库JsBarcode. 下载JsBarcode源码,对CanvasRenderer进行了改进兼容uniapp。 import merge from "../help/merge.js"; import {calculateEncodingAttributes, getTotal…

【探索Linux】—— 强大的命令行工具 P.3(Linux开发工具 vim)

阅读导航 前言vim简介概念特点 vim的相关指令vim命令模式(Normal mode)相关指令插入模式(Insert mode)相关指令末行模式(last line mode)相关指令 简单vim配置(附配置链接)温馨提示 前言 前面我们讲了C语言的基础知识,也了解了一些数据结构&…

MongoDB:数据库初步应用

一.连接MongoDB 1.MongoDBCompass连接数据库 连接路径:mongodb://用户名:密码localhost:27017/ 2.创建数据库(集合) MongoDB中数据库被称为集合. MongoDBCompass连接后,点击红色框加号创建集合,点击蓝色框加号创建文档(数据表) 文档中的数据结构(相当于表中的列)设计不用管…

《零基础7天入门Arduino物联网-04》电路基础知识上

配套视频课程:《零基础学Arduino物联网,入门到进阶》 配套课件资料获取:微联实验室 配套学习套件购买:淘宝搜索店铺【微联实验室】 直流电与交流电 直流电(DC) 是指电流的方向始终保持不变的电流。这意味着…

深入源码分析kubernetes informer机制(二)Reflector

[阅读指南] 这是该系列第二篇 基于kubernetes 1.27 stage版本 为了方便阅读,后续所有代码均省略了错误处理及与关注逻辑无关的部分。 文章目录 Reflector是什么整体结构工作流程list拉取数据缓存resync操作watch监听操作 总结 Reflector是什么 reflector在informer…

nginx部署时http接口正常,ws接口404

可以这么配置 map $http_upgrade $connection_upgrade {default upgrade; close; }upstream wsbackend{server ip1:port1;server ip2:port2;keepalive 1000; }server {listen 20038;location /{ proxy_http_version 1.1;proxy_pass http://wsbackend;proxy_redirect off;proxy…

Android-网络访问技术Retrofit浅析

Retrofit是一种基于注解的网络请求库,专门用于在Android应用中进行网络访问。它使用简洁的方式定义了网络请求的接口,并自动将请求结果解析为Java对象。Retrofit的核心原理是利用了Java的动态代理技术,将网络请求接口的注解信息转化为具体的网…

软件压力测试对软件产品起到什么作用?

一、软件压力测试是什么? 软件压力测试是一种通过模拟正常使用环境中可能出现的大量用户和大数据量的情况,来评估软件系统在压力下的稳定性和性能表现的测试方法。在软件开发过程中,经常会遇到一些性能瓶颈和稳定性问题,而软件压力测试的作…

星星之火:国产讯飞星火大模型的实际使用体验(与GPT对比)

#AIGC技术内容创作征文|全网寻找AI创作者,快来释放你的创作潜能吧!# 文章目录 1 前言2 测试详情2.1 文案写作2.2 知识写作2.3 阅读理解2.4 语意测试(重点关注)2.5 常识性测试(重点关注)2.6 代码…

在 OpenCV 中使用深度学习进行年龄检测-附源码

文末附完整源码和模型文件下载链接 在本教程中,我们将了解使用 OpenCV 创建年龄预测器和性别分类器项目的整个过程。 年龄检测 我们的目标是创建一个程序,使用图像来预测人的性别和年龄。但预测年龄可能并不像你想象的那么简单,为什么呢?您可能会认为年龄预测是一个回归问…