人工智能学习1——特征提取和距离

强人工智能和弱人工智能:
强人工智能:和人脑一样
弱人工智能:不一定和人脑思考方式一样,但是可以达到相同的效果,弱人工智能并不弱
——————————————————————————————————
机器学习能解决的问题:
1.人工智能只能解决有强规律的事情
2.平滑性问题 人工智能不能解决质数识别问题,因为质数本来是没有规律的
3.结果不变性 天气预报-》不变 股票预测-〉可变

特征提取-》数字量化
特征向量就是一个数组
在这里插入图片描述

天然向量化:本来就是数字
特征提取时会丢失很多客观事实,是一个信息丢失的过程

图片-》对于一个400400像素的图像-〉特征提取之后4004003(3是RGB的三通道,400400像素的每一个位置都是三维的)

黑白图片-》4004001(1是灰度,范围0~255)

视频-〉多张图片(抽取视频关键帧) 对于机器学习,图片和视频没有本质区别

中文编码:
One-hot编码
常见中文词10w个
我: 【0,1,0,0,……,0,0】
爱: 【0,0,0,1,……,0,0】
中国:【0,0,0,0,……,1,0】
multi-hot编码
我爱中国:【0,1,0,1,……、,1,0】

hot编码的缺点
所有词的差异都是相同的,看不出来词和词之间的差异,语义丢失
丧失循序性
浪费存储时间

hot编码应用场景:性别编码
特征向量化没有绝对的好,向量和需求要契合

微博社交网络,如何表示特征?
人少的时候:邻接矩阵
人多的时候:?
即使同一场景,提取特征也需要看数量级

向量化的好处:可以衡量节点之间的距离

关于距离
——————————————————————————————————
1.欧氏距离:数学中的距离,距离唯一
2.曼哈顿距离:城市街区行走,两地之间的距离,距离不唯一
3.切比雪夫距离:国际象棋国王的行走,向周围8个方向行走的距离都是1,在欧氏距离中是根号2,曼哈顿距离中是2
公式表示为:max(|x1-x2|,|y1-y2|)
在这里插入图片描述

在真实产品需求中
对两个产品之间的距离一般计算相似度,并且相似度存在一个值域范围
一般使用公式(1/1+阿尔法)来计算相似度,使得相似度处于区间(0,1】中,并且阿尔法越大,相似度越不敏感

在流形面上,距离会失效,只能找近的,近义词,不能找远的
在这里插入图片描述

欧式距离的缺点:
身高体重 150cm 40kg
【1.5,40】-》【150,40】- 〉【1500,40】
使用不同单位,对结果影响不一样,例如上述过程中就在逐步放大身高作用
所以需要做归一化
方差和量纲成正比,量纲越大,方差越大

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/52819.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【CI/CD】图解六种分支管理模型

图解六种分支管理模型 任何一家公司乃至于一个小组织,只要有写代码的地方,就有代码版本管理的主场,初入职场,总会遇到第一个拦路虎 git 管理流程,但是每一个企业似乎都有自己的 git 管理流程,倘若我们能掌握…

深入理解机器学习与极大似然之间的联系

似然函数:事件A的发生含着有许多其它事件的发生。所以我就把这些其它事件发生的联合概率来作为事件A的概率,也就是似然函数。数据类型的不同(离散型和连续性)就有不同的似然函数 极大似然极大似然估计方法(Maximum Li…

基于多线程实现服务器并发

看大丙老师的B站视频总结的笔记19-基于多线程实现服务器并发分析_哔哩哔哩_bilibilihttps://www.bilibili.com/video/BV1F64y1U7A2/?p19&spm_id_frompageDriver&vd_sourcea934d7fc6f47698a29dac90a922ba5a3 思路:首先accept是有一个线程的,另外…

Zip压缩包密码忘记了,怎么办?

Zip压缩包设置了密码,解压的时候就需要输入正确对密码才能顺利解压出文件,正常当我们解压文件或者删除密码的时候,虽然方法多,但是都需要输入正确的密码才能完成。忘记密码就无法进行操作。 那么,忘记了zip压缩包的密…

HOT73-柱状图中最大的矩形

leetcode原题链接:柱状图中最大的矩形 题目描述 给定 n 个非负整数,用来表示柱状图中各个柱子的高度。每个柱子彼此相邻,且宽度为 1 。 求在该柱状图中,能够勾勒出来的矩形的最大面积。 示例 1: 输入:heights [2,1…

8.4一日总结

1.远程仓库的提交方式(免密提交) a.ssh:隧道加密传输协议,一般用来登录远程服务器 b.使用 git clone 仓库名 配置(生成公私钥对) ssh-Keygen [-t rsa -C 邮箱地址] 通过执行上述命令,全程回车,就会在~/.ssh/id_rsa(私钥)和id_rsa.pub(公钥),私钥是必须要保存好的,并不能…

解决Git下载失败太慢

解决Git下载失败太慢 Git 官网下载地址: https://git-scm.com/downloads Windows 下载地址: https://git-scm.com/download/win 用官网的地址下载, 需要从github上下载, 由于国内某些原因, 下载速度缓慢, 还经常失败. 国内用户, 可以通过镜像的方式, 提高下载速度. 阿里镜…

数据库与数据仓库的区别及关系

数据库与数据仓库的区别及关系 数据库数据仓库异同差异联系例子 数据库 数据库是结构化信息或数据的有序集合,一般以电子形式存储在计算机系统中。通常由数据库管理系统 (DBMS) 来控制。它是一个长期存储在计算机内的、有组织的、可共享的、统一管理的大量数据的集…

蒸散发与植被总初级生产力估算

目标 熟悉蒸散发ET及其组分(植被蒸腾Ec、土壤蒸发Es、冠层截留Ei)、植被总初级生产力GPP的概念和碳水耦合的基本原理;掌握利用Python与ArcGIS工具进行课程相关的操作;熟练掌握国际上流行的Penman-Monteith模型,并能够…

【雕爷学编程】Arduino动手做(182)---DRV8833双路电机驱动模块2

37款传感器与执行器的提法,在网络上广泛流传,其实Arduino能够兼容的传感器模块肯定是不止这37种的。鉴于本人手头积累了一些传感器和执行器模块,依照实践出真知(一定要动手做)的理念,以学习和交流为目的&am…

Python开发环境Spyder介绍

前言 嗨喽,大家好呀~这里是爱看美女的茜茜呐 Spyder简介 Spyder (前身是 Pydee) 是一个强大的交互式 Python 语言开发环境, 提供高级的代码编辑、交互测试、调试等特性,支持包括 Windows、Linux 和 OS X 系统。 👇 &#x1f44…

Keil MDK环境下FreeModebus移植踩坑记录

Keil MDK环境下FreeModebus移植踩坑记录 文章目录 Keil MDK环境下FreeModebus移植踩坑记录armcc (arm compiler v5)环境实验一:实验二: armclang (arm compiler v6)环境实验一:实验二:实验三:实验四 总结 armcc (arm c…