Python 全栈体系【四阶】(二十)

第五章 深度学习

二、推荐系统

1. 推荐算法介绍

1.1 个性化推荐算法
  • 人口属性

  • 地理属性

  • 资产属性

  • 兴趣属性

1.2 推荐算法分支
  • 协同过滤推荐算法
  • 基于内容的推荐算法
  • 混合推荐算法
  • 流行度推荐算法
1.3 推荐算法

为推荐系统选择正确的推荐算法是非常重要的决定。目前为止,已经有许多推荐算法可供选择,但为你需要解决的特定问题选择一种特定的算法仍然很困难。每一种推荐算法都有其优点和缺点,当然也有其限制条件,在作出决定之前,你必须要一一考量。在实践中,你可能会测试几种算法,以发现哪一种最适合你的用户,测试中你也会直观地发现它们是什么以及它们的工作原理。

1.4 协同过滤算法

基于内存的协同过滤/基于邻域的协同过滤

  • 相似统计的方法得到具有相似兴趣爱好的邻居用户

基于模型的协同过滤

  • 先用历史数据得到一个模型,再用此模型进行预测。基于模型的推荐广泛使用的技术包括神经网络等学习技术、潜在语义检索 (latent seman2tic indexing)和贝叶斯网络 (bayesian networks)。
1.5 邻域的协同过滤

UCF 距离算法 ICF

欧几里得距离(Euclidean Distance)以及欧式距离的标准化(Standardized Euclidean Distance)

马哈拉诺比斯距离(Mahalanobis Distance)

曼哈顿距离(Manhattan Distance)

切比雪夫距离(Chebyshev Distance)

明可夫斯基距离(Minkowski Distance)

海明距离(Hamming distance)

1.6 ICF

请添加图片描述

1.7 UCF

请添加图片描述

1.8 邻域的协同过滤

UCF ICF 相似度

余弦相似度(Cosine Similarity)以及调整余弦相似度(Adjusted Cosine Similarity)

皮尔森相关系数(Pearson Correlation Coefficient)

Jaccard 相似系数(Jaccard Coefficient)

Tanimoto 系数(广义 Jaccard 相似系数)

对数似然相似度/对数似然相似率

互信息/信息增益,相对熵/KL 散度

信息检索–词频-逆文档频率(TF-IDF)

词对相似度–点间互信息

1.9 基于模型的协同过滤

用关联算法做协同过滤

用聚类算法做协同过滤

用分类算法做协同过滤

用回归算法做协同过滤

用矩阵分解做协同过滤

用神经网络做协同过滤

用图模型做协同过滤

用隐语义模型做协同过滤

1.10 关联规则

Apriori

  • Apriori 算法是常用的用于挖掘出数据关联规则的算法,它用来找出数据值中频繁出现的数据集合,找出这些集合的模式有助于我们做一些决策。比如在常见的超市购物数据集,或者电商的网购数据集中,如果我们找到了频繁出现的数据集,那么对于超市,我们可以优化产品的位置摆放,对于电商,我们可以优化商品所在的仓库位置,达到节约成本,增加经济效益的目的。

FPGROWTH

  • FpGrowth 算法通过构造一个树结构来压缩数据记录,使得挖掘频繁项集只需要扫描两次数据记录,而且该算法不需要生成候选集合,所以效率会比较高。

请添加图片描述
请添加图片描述

1.11 聚类

K-Means

  • K-Means 算法是无监督的聚类算法,它实现起来比较简单,聚类效果也不错,因此应用很广泛。K-Means 算法有大量的变体,本文就从最传统的 K-Means 算法讲起,在其基础上讲述 K-Means 的优化变体方法。包括初始化优化 K-Means++, 距离计算优化 elkan K- Means 算法和大数据情况下的优化 Mini Batch K-Means 算法。

BIRCH

  • BIRCH 的全称是利用层次方法的平衡迭代规约和聚类(Balanced Iterative Reducing and Clustering Using Hierarchies),名字实在是太长了,不过没关系,其实只要明白它是用层次方法来聚类和规约数据就可以了。

请添加图片描述

1.12 分类

逻辑回归原理

  • 如果我们根据用户评分的高低,将分数分成几段的话,则这个问题变成分类问题。比如最直接的,设置一份评分阈值,评分高于阈值的就是推荐,评分低于阈值就是不推荐,我们将问题变成了一个二分类问题。虽然分类问题的算法多如牛毛,但是目前使用最广泛的是逻辑回归。

朴素贝叶斯算法

请添加图片描述

1.13 矩阵分解

请添加图片描述

1.14 矩阵分解之隐语义

请添加图片描述
请添加图片描述

1.15 神经网络

2006 年,Hinton 在《Science》和相关期刊上发表了论文,首次提出了“深度信念网络”的概念。与传统的训练方式不同,“深度信念网络”有一个“预训练”(pre-training)的过程,这可以方便的让神经网络中的权值找到一个接近最优解的值,之后再使用“微调”(fine-tuning)技术来对整个网络进行优化训练。这两个技术的运用大幅度减少了训练多层神经网络的时间。他给多层神经网络相关的学习方法赋予了一个新名词–“深度学习”。

很快,深度学习在语音识别领域暂露头角。接着,2012 年,深度学习技术又在图像识别领域大展拳脚。Hinton 与他的学生在ImageNet 竞赛中,用多层的卷积神经网络成功地对包含一千类别的一百万张图片进行了训练,取得了分类错误率 15%的好成绩,这个成绩比第二名高了近 11 个百分点,充分证明了多层神经网络识别效果的优越性。
请添加图片描述

请添加图片描述

1.16 协同过滤优点
  • 实现快
  • 对商品和用户没有要求
  • 效果有保证
1.17 协同过滤缺点
  • 冷启动
  • 马太效应
  • 推荐解释模糊
1.18 工具

请添加图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/570982.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Python】搭建 Python 环境

目 录 一.安装 Python二.安装 PyCharm 要想能够进行 Python 开发,就需要搭建好 Python 的环境 需要安装的环境主要是两个部分: 运行环境: Python开发环境: PyCharm 一.安装 Python (1) 找到官方网站 (2) 找到下载页面 选择 “Download for Windows”…

【linux深入剖析】基础IO操作 | 使用Linux库函数实现读写操作 | 文件相关系统调用接口

🍁你好,我是 RO-BERRY 📗 致力于C、C、数据结构、TCP/IP、数据库等等一系列知识 🎄感谢你的陪伴与支持 ,故事既有了开头,就要画上一个完美的句号,让我们一起加油 目录 前言1.复习C文件IO相关操…

机器学习K-means算法

K-Means 算法(K-Means算法、K-Means 中心值计算、K-Means 距离计算公式、K-Means 算法迭代步骤、K-Means算法实例) 问题引入 给你如下两种图片,快读回答2个问题,问 图1 中有几类五谷杂粮?问 图2 中有几类五谷杂粮&…

git 常用操作记录(tag、remote、rebase等)

关于git的常用命令(add、commit、pull、push、merge、stash等)在之前的博文已经介绍过了,下面根据工作中遇到的问题,总结一些更为常用的命令使用方式。 1、版本标签tag tag是基于一次commit的,可以指定在某个分支的提…

第十一届蓝桥杯大赛第二场省赛试题 CC++ 研究生组-寻找2020

数据很恶心&#xff0c;但是考点挺友好~ 把测试数据黏贴到记事本中&#xff0c;知测试数据的行列数 然后根据规则判断2020是否出现&#xff0c;并累计其次数即可。 判断可能需要注意超出下标&#xff0c;可以索性把数组定大些。 #include<stdio.h> const int N 310; ch…

2024年中国集成电路产业链上中下游市场分析(附产业链图谱)

在产业数字化转型的大背景下&#xff0c;受益于智能手机、智能汽车等终端应用蓬勃发展与全球半导体产业链产能转移&#xff0c;我国集成电路产业规模持续增长。集成电路作为重要的半导体器件&#xff0c;是典型的知识密集型、技术密集型、资本密集和人才密集型的高科技产业&…

Pillow教程04:学习ImageDraw+Font字体+alpha composite方法,给图片添加文字水印

---------------Pillow教程集合--------------- Python项目18&#xff1a;使用Pillow模块&#xff0c;随机生成4位数的图片验证码 Python教程93&#xff1a;初识Pillow模块&#xff08;创建Image对象查看属性图片的保存与缩放&#xff09; Pillow教程02&#xff1a;图片的裁…

入行AI写作第一个月收入2万+复盘分享

入行AI写作第一个月收入2万复盘分享 AI写作作为一种新兴的创作方式&#xff0c;正逐渐改变着内容产业的生态。在这个领域中&#xff0c;许多人通过自己的努力和智慧&#xff0c;实现了快速的成长和收入的增长。本文将从技术学习与掌握、实践与应用、内容创作与优化、持续学习与…

马上入局:华为云服务器租用优惠活动开启,服务器价格35元一年

2024年华为云服务器租用价格表&#xff0c;云服务器优惠价格35元一年&#xff0c;配置为1核2G1M带宽HECS云服务器、L实例-2核2G3M配置46元1年、4核16G10M华为云服务器24元一个月、2核4G5M服务器158元一年&#xff0c;3年1010元、华为云香港服务器99元一年、增强型C7云服务器4核…

【Linux】Ubuntu20.04解决网卡、显卡驱动不正确的问题

文章目录 1、概述2、问题描述2.1、快捷栏无无线设置2.2、设置中无Wifi设置专栏2.3、接入外接屏幕无作用 3、网卡驱动解决方案3.1、在18.04的旧方法3.1.1、安装源更换3.1.1.1、备份原始安装源3.1.1.2、修改安装源地址3.1.1.3、更新源地址 3.1.2、安装依赖3.1.3、安装编译器3.1.3…

社交革命:Facebook如何塑造数字社交的未来

引言 在当今数字化时代&#xff0c;社交媒体已成为人们生活的核心&#xff0c;而Facebook作为其中的领军者&#xff0c;一直在塑造着数字社交的未来。本文将深入探讨Facebook在数字社交领域的地位、影响力以及对未来社交的塑造作用&#xff0c;为读者揭示这场社交革命如何由Fa…

Jetson视频解码

一、Jetson介绍 Jetson 是由 NVIDIA 开发的嵌入式计算平台系列&#xff0c;旨在提供高性能的人工智能&#xff08;AI&#xff09;计算能力&#xff0c;适用于嵌入式系统、机器人、自动驾驶汽车和其他边缘计算应用。Jetson 平台通常集成了 NVIDIA 的 GPU 和其他硬件加速器&#…