深度学习图像算法工程师--面试准备(1)

1 请问人工神经网络中为什么 ReLU 要好过于 tanh 和 Sigmoid function?

在这里插入图片描述

在这里插入图片描述

  1. 采⽤Sigmoid 等函数,算激活函数时(指数运算),计算量⼤,反向传播求误差梯度时,求导涉及除法和指数运算,计算量相对⼤,⽽采⽤ReLU 激活函数,整个过程的计算量节省很多。

  2. 对于深层⽹络,Sigmoid 函数反向传播时,很容易就会出现梯度消失
    的情况(在 Sigmoid 接近饱和区时,变换太缓慢,导数趋于 0,这种情况会造成信息丢失),这种现象称为饱和,从而无法完成深层网络的训练。而ReLU 就不会有饱和倾向,不会有特别小的梯度出现,求导后都为1。

  3. ReLU 会使⼀部分神经元的输出为 0,这样就造成了⽹络的稀疏性,并且减少了参数的相互依存关系,缓解了过拟合问题的发⽣,当然现在也有⼀些对 ReLU 的改进,比如 PReLU,random ReLU等,在不同的数据集上会有⼀些训练速度上或者准确率上的改进。

    现在主流的做法,会多做⼀步 batch normalization,尽可能保证每⼀层网络的输⼊具有相同的分布 。⽽较新的 paper ,他们在加⼊bypass connection 之后,发现改变 batch normalization 的位置会有更好的效果。


2 能写一下逻辑回归的损失函数吗?为什么不用 MSE(L2 loss)作为损失函数

推荐博客 https://zhuanlan.zhihu.com/p/670167066

https://blog.csdn.net/m0_52447591/article/details/129796877

在这里插入图片描述

不用 MSE 做损失函数的原因:

  1. 损失函数的角度:逻辑回归预测函数是非线性的,采用 MSE 得到的损失
    函数是非凸函数,会存在很多局部极小值,梯度下降法可能无法获得全局最优解。
  2. 极大似然的角度: 采用极大似然法估计逻辑回归模型的参数,最终得到的
    对数似然函数形式与对数损失函数一致。

3 逻辑回归用梯度下降优化,学习率对结果有什么影响?

  1. 学习率过低则模型训练速度会慢
  2. 学习率过高则模型训练会在全局最优点附近震荡,甚至不收敛

4 逻辑回归中样本不均衡我们怎么处理?

  1. 调整分类阈值,不统一使用 0.5,根据样本中类别的比值进行调整。
  2. 多类样本负采样。进一步也可将多类样本负采样构建多个训练集,最后聚
    合多个模型的结果。
  3. 少类样本过采样。过采样的方法大致有三种:
    c1: 随机复制
    c2: 基于聚类的过采样
    c3: SMOTE
  4. 改变性能指标,推荐采用 ROC AUC、F1 Score,等综合考虑,不单单使用精度。
  5. 模型训练增加正负样本惩罚权重,少类样本权重加大,增大损失项。

5(百度)Kmeans 的流程方法停止条件

流程:
(1)K 如何确定
(2)初始质心的选取
(3)距离的度量
(4)质心的计算
(5)算法停止条件
(6)空聚类的处理
停止条件:
目标函数达到最优,对于不同的距离度量,目标函数往往不同。我们往往认
为簇的质心到各个点的距离越小,簇越紧凑。
采用欧式距离时:目标函数一般为最小化对象到其簇质心的距离的平方和。
采用余弦相似度时,目标函数一般为最大化对象到其质心的余弦相似度和。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/479871.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MySQL - 增量同步和全量同步

增量同步和全量同步是数据同步过程中常用的两种方式,它们在定义、区别以及适用场景上有一些明显的差异。 一、定义 增量同步是指在数据同步中仅同步更新或新增的数据,而不包括已经同步过的数据。全量同步则是指将所有数据进行一次完整的同步&#xff0c…

财政部《关于加强数据资产管理的指导意见》要点解析

财政部1月11日印发的《关于加强数据资产管理的指导意见》(以下简称《指导意见》)是规范和加强数据资产管理,更好推动数字经济发展的重要文件。最近对文件的解析内容不少,这里结合一些公开内容再跟大家做一些解析。 四个核心要点 …

OpenAI Sora引领AI跳舞视频新浪潮:字节跳动发布创新舞蹈视频生成框架

OpenAI的Sora已经引起广泛关注,预计今年AI跳舞视频将在抖音平台上大放异彩。下面将为您详细介绍一款字节跳动发布的AI视频动画框架。 技术定位:这款框架采用先进的diffusion技术,专注于生成人类舞蹈视频。它不仅能够实现人体动作和表情的迁移…

视频生成模型作为世界模拟器

我们探索了在视频数据上大规模训练生成模型。具体来说,我们联合训练文本条件扩散模型,处理不同持续时间、分辨率和宽高比的视频和图像。我们利用一种在时空补丁上操作视频和图像潜码的transformer架构。我们最大的模型,Sora,能够生…

通用二进制方式安装MySQL8.0.x

一、必要说明 1、系统:openEuler操作系统 2、版本:MySQL - 8.0.36 3、下载地址:https://dev.mysql.com/get/Downloads/MySQL-8.0 二、安装步骤 1、下载glibc版本的Mysql [rootnode2 ~]# wget -c https://dev.mysql.com/get/Downloads/MySQ…

C# 使用RestSharp封装一个常用的http请求方法

Nuget安装RestSharp版本&#xff0c;不同版本之间的区别有很大&#xff0c;当前这个写法基于以下版本 public class APIHelper{private readonly string baseUrl ConfigurationManager.AppSettings["connectionString"].ToString(); /// <summary>/// http请…

离线升级esp32开发板升级包esp32-2.0.14(最新版已经3.0alpha了)

1.Arduino IDE 2.3.2最新 2024.2.20升级安装:https://www.arduino.cc/en/software 2.开发板地址 地址&#xff08;esp8266,esp32&#xff09; http://arduino.esp8266.com/stable/package_esp8266com_index.json,https://raw.githubusercontent.com/espressif/arduino-esp32…

C++ 二维差分 二维前缀和逆运算 差分矩阵

输入一个 n 行 m 列的整数矩阵&#xff0c;再输入 q 个操作&#xff0c;每个操作包含五个整数 x1,y1,x2,y2,c &#xff0c;其中 (x1,y1) 和 (x2,y2) 表示一个子矩阵的左上角坐标和右下角坐标。 每个操作都要将选中的子矩阵中的每个元素的值加上 c 。 请你将进行完所有操作后的…

基于RBAC的权限管理的理论实现和权限管理的实现

权限管理的理论 首先需要两个页面支持&#xff0c;分别是角色管理和员工管理&#xff0c;其中角色管理对应的是角色和权限的配合&#xff0c;员工管理则是将登录的员工账号和员工所处的角色进行对应&#xff0c;即通过新增角色这个概念&#xff0c;让权限和员工并不直接关联&a…

【论文精读】MAE

摘要 将掩码重建任务从nlp引入到cv&#xff0c;提出非对称掩码自编码器。 框架 概述 如上图&#xff0c;本文提出掩码自编码器&#xff0c;即将给定原始信号的部分观测值的情况下重建原始信号&#xff0c;编码器将观察到的部分信号(没有掩码标记)映射到潜在表示&#xff0c;采…

openai公司的chatgpt-3.5参数库内还未增加sora的语料信息

openai公司的chatgpt-3.5参数库内还未增加sora的语料信息&#xff01;我想通过openai公司的chatgpt3.5来了解一下关于sora的技术信息&#xff0c;结果呢&#xff0c;它竟然回答不知道sora是什么。看来&#xff0c;sora的语料库信息还未来得及加入chatgpt3.5的训练模型中。 如图…

Puresuit 轨迹跟踪

在网上看过了很多Puresuit的轨迹跟踪算法&#xff0c;看起来都写的差不多&#xff0c;用起来不会用。 套用一份demo,在C转C语言的时候又深入理解了一些&#xff0c;在此整理成文档&#xff0c;供大家参考。输入 1.输入量是什么; 要知道车的长度&#xff0c;车的后轮位置以及下…