人工智能-优化算法之梯度下降

梯度下降

尽管梯度下降(gradient descent)很少直接用于深度学习, 但了解它是理解下一节随机梯度下降算法的关键。 例如,由于学习率过大,优化问题可能会发散,这种现象早已在梯度下降中出现。 同样地,预处理(preconditioning)是梯度下降中的一种常用技术, 还被沿用到更高级的算法中。 让我们从简单的一维梯度下降开始。

下面我们来展示如何实现梯度下降。为了简单起见,我们选用目标函数f(x)=x^{2}。 尽管我们知道x=0f(x)能取得最小值, 但我们仍然使用这个简单的函数来观察(x)的变化。

%matplotlib inline
from mxnet import np, npx
from d2l import mxnet as d2lnpx.set_np()def f(x):  # 目标函数return x ** 2def f_grad(x):  # 目标函数的梯度(导数)return 2 * x
%matplotlib inline
import numpy as np
import torch
from d2l import torch as d2ldef f(x):  # 目标函数return x ** 2def f_grad(x):  # 目标函数的梯度(导数)return 2 * x
%matplotlib inline
import numpy as np
import tensorflow as tf
from d2l import tensorflow as d2ldef f(x):  # 目标函数return x ** 2def f_grad(x):  # 目标函数的梯度(导数)return 2 * x
%matplotlib inline
import warnings
from d2l import paddle as d2lwarnings.filterwarnings("ignore")
import numpy as np
import paddledef f(x):  # 目标函数return x ** 2def f_grad(x):  # 目标函数的梯度(导数)return 2 * x

接下来,我们使用x=10作为初始值,并假设eta=0.2。 使用梯度下降法迭代\(x\)共10次,我们可以看到,(x)的值最终将接近最优解。

def gd(eta, f_grad):x = 10.0results = [x]for i in range(10):x -= eta * f_grad(x)results.append(float(x))print(f'epoch 10, x: {x:f}')return resultsresults = gd(0.2, f_grad)

 epoch 10, x: 0.060466

def gd(eta, f_grad):x = 10.0results = [x]for i in range(10):x -= eta * f_grad(x)results.append(float(x))print(f'epoch 10, x: {x:f}')return resultsresults = gd(0.2, f_grad)

 epoch 10, x: 0.060466

def gd(eta, f_grad):x = 10.0results = [x]for i in range(10):x -= eta * f_grad(x)results.append(float(x))print(f'epoch 10, x: {x:f}')return resultsresults = gd(0.2, f_grad)

 epoch 10, x: 0.060466

def gd(eta, f_grad):x = 10.0results = [x]for i in range(10):x -= eta * f_grad(x)results.append(float(x))print(f'epoch 10, x: {float(x):f}')return resultsresults = gd(0.2, f_grad)

 epoch 10, x: 0.060466

对进行x优化的过程可以绘制如下:

def show_trace(results, f):n = max(abs(min(results)), abs(max(results)))f_line = np.arange(-n, n, 0.01)d2l.set_figsize()d2l.plot([f_line, results], [[f(x) for x in f_line], [f(x) for x in results]], 'x', 'f(x)', fmts=['-', '-o'])show_trace(results, f)

 [07:12:32] ../src/storage/storage.cc:196: Using Pooled (Naive) StorageManager for CPU

def show_trace(results, f):n = max(abs(min(results)), abs(max(results)))f_line = torch.arange(-n, n, 0.01)d2l.set_figsize()d2l.plot([f_line, results], [[f(x) for x in f_line], [f(x) for x in results]], 'x', 'f(x)', fmts=['-', '-o'])show_trace(results, f)

 

def show_trace(results, f):n = max(abs(min(results)), abs(max(results)))f_line = tf.range(-n, n, 0.01)d2l.set_figsize()d2l.plot([f_line, results], [[f(x) for x in f_line], [f(x) for x in results]], 'x', 'f(x)', fmts=['-', '-o'])show_trace(results, f)

 

def show_trace(results, f):n = max(abs(min(results)), abs(max(results)))f_line = paddle.arange(-n, n, 0.01, dtype='float32')d2l.set_figsize()d2l.plot([f_line, results], [[f(x) for x in f_line], [f(x) for x in results]], 'x', 'f(x)', fmts=['-', '-o'])show_trace(results, f)

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/227766.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

堆的应用(堆排序、Top-K问题)

文章目录 1 堆排序2 Top-K问题 1 堆排序 堆排序是一种基于二叉堆(通常使用数组实现)的排序算法。 它的基本思想是利用堆这种数据结构的性质,通过建立一个堆(大堆或小堆),使得堆的根节点是所有节点中的最大值…

6.保留两位小数【2023.11.28】

1.问题描述 题中将给出一个具有许多小数位的浮点数,请将这个数字保存至小数点后两位,并输出。 2.解决思路 输入一个浮点数。 程序将浮点数保留两位小数并输出。 例如: formatted_float "{:.2f}".format(input_float)3.代码实…

11-28渗透

用nmap扫描靶机1进行主机发现 已知靶机1的主机在172.16.17.0/24下 扫描结果如下 根据扫描结果看开启的服务怀疑172.16.17.177是靶机1 浏览器访问172.16.17.177页面得到如下 我们知道织梦cms系统默认管理路径是dede,登陆管理后台可以通过地址172.16.17.177/dede/i…

OpenCV快速入门【完结】:总目录——初窥计算机视觉

文章目录 前言目录1. OpenCV快速入门:初探2. OpenCV快速入门:像素操作和图像变换3. OpenCV快速入门:绘制图形、图像金字塔和感兴趣区域4. OpenCV快速入门:图像滤波与边缘检测5. OpenCV快速入门:图像形态学操作6. OpenC…

linux用户身份切换su和 sudo

su 切换root,但是,环境变量是之前用户的 可以看到利用su切换,根目录还是pro1的 su - 连同环境一起切换成root,切换后工作目录都不一样了,看输入内容左侧信息,和第一个图片比较 -c仅执行一次命令&#xff0…

CSS问题:如何实现瀑布流布局?

前端功能问题系列文章,点击上方合集↑ 序言 大家好,我是大澈! 本文约2500字,整篇阅读大约需要4分钟。 本文主要内容分三部分,如果您只需要解决问题,请阅读第一、二部分即可。如果您有更多时间&#xff…

人工智能|机器学习——感知器算法原理与python实现

感知器算法是一种可以直接得到线性判别函数的线性分类方法,它是基于样本线性可分的要求下使用的。 一、线性可分与线性不可分 为了方便讨论,我们蒋样本增加了以为常数,得到增广样向量 y(1;;;...;),则n个样本的集合为&a…

【算法刷题】Day7

文章目录 283. 移动零1089. 复写零 283. 移动零 原题链接 看到题目,首先看一下题干的要求,是在原数组内进行操作,平切保持非零元素的相对顺序 这个时候我们看到了示例一: [ 0, 1, 0, 3,12 ] 这个时候输出成为了 [ 1, 3, 12, 0, …

STK Components 二次开发- 卫星地面站

前期卫星地面站创建已经说过,本次说一下卫星和地面站可见性时卫星名称和轨迹线变色问题。 1.创建卫星 // Get the current TLE for the given satellite identifier. var tleList TwoLineElementSetHelper.GetTles(m_satelliteIdentifier, JulianDate.Now);// Us…

计网Lesson4 - 计算机组网模型

文章目录 计算机的连接方式1. 两台计算机的互联2. 多台计算机的互联(旧式)3. 多台计算机的互联 --- 集线器(Hub)4. 网桥5. 多台计算机的互联 --- 交换器(Switch) 计算机的连接方式 1. 两台计算机的互联 网…

ArrayList与顺序表的简单理解

前言----list 在集合框架中,List是一个接口,继承自Collection。Collection也是一个接口,该接口中规范了后序容器中常用的一些方法,具体如下所示: Iterable也是一个接口,表示实现该接口的类是可以逐个元素进…

前端量子纠缠 效果炸裂 multipleWindow3dScene

我 | 在这里 🕵️ 读书 | 长沙 ⭐软件工程 ⭐ 本科 🏠 工作 | 广州 ⭐ Java 全栈开发(软件工程师) 🎃 爱好 | 研究技术、旅游、阅读、运动、喜欢流行歌曲 ✈️已经旅游的地点 | 新疆-乌鲁木齐、新疆-吐鲁番、广东-广州…