为什么nn.Linear 的weight 是 (out_features, in

为什么nn.Linear 的weight 是 (out_features, in_features)

news/2025/3/26 0:27:37/文章来源:https://www.cnblogs.com/xiezhengcai/p/18792646

在PyTorch的nn.Linear中，权重矩阵的形状为(out_features, in_features)。这是因为线性变换的实现方式为：

具体来说：

当创建nn.Linear(10, 60)时，in_features=10，out_features=60，因此权重的形状是(60, 10)。
输入张量t的形状为(2, 5, 10)，与转置后的权重a.weight.T（形状(10, 60)）相乘时，实际计算为：
[
t \in \mathbb{R}^{2 \times 5 \times 10}, \quad a.weight^\top \in \mathbb{R}^{10 \times 60} \implies t \ @ \ a.weight^\top \in \mathbb{R}^{2 \times 5 \times 60}
]
这与直接调用a(t)的结果一致。

因此，a.weight的shape是(60, 10)，而非(10, 60)，这是PyTorch的设计约定，确保矩阵乘法能正确匹配输入和输出的维度。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/905734.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

字符串问题的终极法宝：进制哈希

江湖中，剑客以快制胜，而算法竞赛里，字符串哈希（String Hashing）便是那柄出招如电的快剑。各种字符串问题纷乱复杂，各种字符串算法招式繁复，需苦练内功心法。但字符串哈希算法却只凭一招：将字符串化作数字，以数论为刃，至简之道斩尽来犯之敌。但此招并非无懈可击。若…

布局机器人，vivo用三十年技术沉淀回答“时代之问”

科技创新给产业界带来最大的影响就是“跨界焦虑”。不敢错过，这是企业面对风口的普遍心态。生怕一波没跟上，就被时代淘汰了。但不错过，并不等于抓得住。比如元宇宙概念经历资本狂欢，无数科技巨头卷入，退潮时一地鸡毛。再比如在新能源汽车赛道卷起千亿投资风暴时，也有很多…

石油化工厂区防爆入侵报警系统

石油化工厂区防爆入侵报警系统采用AI智能防爆预警摄像头嵌入AI人体识别深度算法，对人体目标特征的检测分析识别预警。系统设备采用AI算法，通过大量真实的场景样本训练后，能够在各种应用场景下及时准确地对场景中发生的人体入侵行为发出告警信息。通过对实时视频图像进行智能…

矿山皮带运输机安全监测预警系统

智慧矿山皮带运输机安全监测预警系统是基于AI视频监测分析识别的智能皮带管理系统，该系统通过将人工智能识别算法提高实时分析的效率，达到现场快速识别、分析、预警的目的，为矿山皮带运输系统提供可视化的安全生产保障，该系统已经实现了皮带运输机大媒块、传输带异物、传输…

OP253自动安装凸轮弹簧常见问题

1.夹爪抓取弹簧后不停扔料两台弹簧振动盘里面的弹簧是镜像件，如果出现混料被取走，会导致卷簧时卡死。夹爪夹住弹簧并提起时，有两个接近开关会检测弹簧是否正确，如果不正确，会将弹簧扔进废料桶。上图两个接近开关是埋入式，只有中心位置检测。应该左边不亮，右边亮，如果任…

制作一个学生管理系统包括按钮和输入框学生成绩管理系统body { font-family: Arial, sans-serif; margin: 20px } \3c pre>\3c code> h1 { text-align: center } .add-student, .search, .filters { margin-bottom: 20px } table { width: 100%; border-collapse: col…

linux主机新增硬盘与挂载

近期对工作站主机新增了硬盘，网上搜罗了一些教程，整合了一下，感谢相关博主的知识分享，本篇只是整合参考：https://zhuanlan.zhihu.com/p/117651379 https://cn.linux-console.net/?p=10440新增硬盘处理新增硬盘后，在linux系统下输入 fdisk -l 命令查看当前磁盘信息可以看…

如何优化SQL查询以提高数据库性能？

你正在自助餐厅，所有的食物看起来都很美味。但你不是拿一个盘子，只取你需要的，而是开始从各个角落堆满食物，弄得一团糟，速度也慢了下来。结果是什么？你拿的东西很多并且效率低下。这就像没有优化的SQL查询！它们加载了不必要的数据，拖慢了整个系统的速度，并在数据库中…

HTB Season7 Dog

一、信息收集拿到ip，先测试一下连通性连通性正常，使用nmap扫描一下ip，输入nmap -sV -sC -A 10.10.11.58 -Pn 扫描发现http页面，并且发现了网页使用了BackDropCMS在hosts内添加添加页面，访问网页发现一个登录框，尝试一下sql注入无果，只能另寻出路此时dirsearch扫描发现了…

20242802 2023-2024-2《网络攻防实践》第四周作业

20242802 2023-2024-2 《网络攻防实践》第四周作业 1.实验内容与知识点整理TCP/IP参考模型在TCP/IP参考模型中，去掉了OSI参考模型中的会话层和表示层（这两层的功能被合并到应用层实现）。同时将OSI参考模型中的数据链路层和物理层合并为主机到网络层，所以在TCP/IP参考模型中…

浅谈--Cache Design Pattern

🤔听说你用过Redis、Caffeine，那我问你你了解Cache Design Pattern吗？Look at my eyes。今天就来聊聊Cache Design Pattern。Cache Design Pattern是缓存设计模式，是用于优化系统性能、减少资源消耗和提升响应速度的软件架构策略。主要有六大核心缓存模式。 Cache-Aside …