KAN神经网络简短介绍

KANs简介

Kolmogorov-Arnold Networks (KANs) 是一种创新的神经网络模型,它挑战了传统多层感知器(MLPs)的设计,通过将激活函数从节点转移到边上来提升模型的性能和可解释性。KAN的核心在于,其所有权重参数均被单变量的样条函数代替,这些函数可根据训练数据自适应调整,从而提供了比固定激活函数更高的灵活性和适应性。
在这里插入图片描述

性能优势

准确性提升:与同等规模或更大规模的MLPs相比,KANs在数据拟合和偏微分方程求解任务上展现了更高的准确率。研究显示,即使是小型KANs也能达到或超过大型MLPs的表现。
神经缩放律:KANs表现出比MLPs更优的神经缩放律,意味着随着模型参数数量的增加,KANs的性能提升更加显著。
可解释性增强:KANs的结构允许直观可视化,用户可以直接与网络“互动”,进行调试和优化,这在符号回归等任务中特别有利。用户可以手动指定或由系统建议合适的符号函数来代表激活函数,进而得到可读性强的最终表达式。

训练过程

KANs的训练流程包括几个关键步骤,其中涉及到参数初始化、激活函数的动态调整以及符号公式的提取,以下是具体细节:

参数初始化
激活函数基底: 激活函数b(x)通常设置为sigmoid-like函数,例如silu(x) = x / (1 + e^(-x))。
样条函数参数: 样条函数spline(x)通过B样条的线性组合来参数化,即 [ spline(x) = \sum_i c_i B_i(x) ] 其中,c_i是可训练参数。为了使初始激活接近零,B样条系数c_i从正态分布N(0, σ^2)中抽取,通常选择小的σ,如σ=0.1。
权重初始化: 权重w遵循Xavier初始化,保证了良好的梯度传播特性。
动态更新样条网格
由于样条函数定义在有界区域上,而训练过程中激活值可能超出预设区间,因此,每接收到新的输入激活值时,KANs会相应地更新每个网格点的位置,以确保覆盖所有可能出现的激活值范围。

模型训练与符号化
初步训练: KANs首先像常规神经网络一样进行训练,此时激活函数是基于样条函数的灵活表达。
修剪与符号化: 自动修剪过程可能会移除所有隐藏层的节点,只保留最后一个,形成一个简化的网络结构。随后,用户可通过观察网络图来猜测或使用suggest_symbolic函数推荐合适的符号函数来替换激活函数。
精调: 当所有激活函数都符号化后,仅剩的参数是仿射参数,继续训练这些参数直到损失降到极小值,表明找到了正确的符号表达。
输出公式: 使用Sympy等数学软件计算输出节点的最终符号表达式,例如得到1.0e1.0y^2 + 1.0sin(3.14*x)。

参数量与效率

虽然KANs的参数量级看似比MLPs更高(约O(N2LG)对比O(N2L)),实际上KANs往往能在较小的N值下达到更好的泛化能力,从而减少参数量,同时提升模型的通用性和可解释性。对于一维问题,KAN甚至简化为单个样条近似。

结论

KANs作为MLPs的有力竞争者,不仅在提高深度学习模型的准确性和可解释性方面展现出了巨大潜力,而且在面对非符号函数学习时提供了比符号回归方法更强的鲁棒性和适应性。论文通过数学和物理领域的实例验证了KANs作为研究工具的有效性,为未来人工智能和基础相互作用领域的发展开辟了新的路径。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/691837.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

算法题解记录24+++二叉树的右视图(百日筑基)

题目描述: 题目难度:中等 给定一个二叉树的 根节点 root,想象自己站在它的右侧,按照从顶部到底部的顺序,返回从右侧所能看到的节点值。 示例 1: 输入: [1,2,3,null,5,null,4] 输出: [1,3,4]示例 2: 输入: [1,null,3]…

picoCTF-Web Exploitation-Trickster

Description I found a web app that can help process images: PNG images only! 这应该是个上传漏洞了,十几年没用过了,不知道思路是不是一样的,以前的思路是通过上传漏洞想办法上传一个木马,拿到webshell,今天试试看…

【C/C++】C/C++ 车票售票系统设计与实现(源码+课件)【独一无二】

👉博__主👈:米码收割机 👉技__能👈:C/Python语言 👉公众号👈:测试开发自动化【获取源码商业合作】 👉荣__誉👈:阿里云博客专家博主、5…

Linux部署

先把需要的东西准备好: 第一步解压tomcat: tar -zxvf apache-tomcat-8.5.20.tar.gz 第二步解压jdk: tar -zxvf jdk-8u151-linux-x64.tar.gz 第三步配置Java环境变量: vim /etc/profile 把下面代码放进去: export JAVA_HOME/root…

【解决】:git clone项目报错fatal: fetch-pack: invalid index-pack output

象:之前一直使用gitee将个人学习和工作相关记录上传到个人gitee仓库,一直没出现过问题。直到有一天换电脑重新拉取代码发现出了问题,具体如下图: 原因分析: 经过查询发现主要原因是因为git clone的远程仓库的项目过大…

台阶仪测量膜厚原理及优势

台阶仪,也称为探针式轮廓仪或接触式表面轮廓测量仪,主要用于台阶高、膜层厚度、表面粗糙度等微观形貌参数的测量。 台阶仪的工作原理 台阶仪的核心部件是一个精密的触针或探针,它被安装在一个高度可调的支架上。当触针沿被测表面轻轻滑过时…

搭建 IIS + asp +access 网站

搭建 IIS asp access 网站 一、什么是 asp二、asp 的组成三、asp 说明四、什么是access五、搭建环境六、问题一七、问题二八、网站展示九、IIS 页面展示十、IIS 功能展示 欢迎关注公总号【云边小网安】 一、什么是 asp asp:即 Active Server Pages,是…

14.跳跃游戏Ⅱ

文章目录 题目简介题目解答解法一:贪心算法动态规划代码:复杂度分析: 题目链接 大家好,我是晓星航。今天为大家带来的是 跳跃游戏Ⅱ 相关的讲解!😀 题目简介 题目解答 解法一:贪心算法动态规划…

Line Buffer概述

buffer在芯片物理上一般指的是SRAM,也可以指寄存器组。buffer的作用是用来在逻辑芯片上暂时存储数据,但不会是大量的数据。如果是大量数据一般会使用DRAM(典型的指DDR)作为存储芯片,用来存储大密度数据。line buffer可…

Linux开发--Linux内核开发移植

Linux内核开发移植 Linux内核版本变迁及其获得 Linux是最受欢迎的自由电脑操作系统内核, 是一个用C语言写成, 并且符合POSIX标准的类Unix操作系统 Linux是由芬兰黑客Linus Torvalds开发的, 目的是尝试在英特尔x86架构上提供自由免费的类Un…

英语复习之英语形近词总结(四)

英语形近词总结复习第四部分: 单词 释义例句 genuine 英 /ˈdʒenjuɪn/ 美 /ˈdʒenjuɪn/ adj.真实的,真正的;诚恳的 1.Only genuine refugees can apply for asylum. 只有真正的难民才能申请政治避难。 《牛津词典》 2.This isnt a genui…

牛客NC343 和大于等于K的最短子数组【困难 前缀和 Java/Go】

题目 题目链接: https://www.nowcoder.com/practice/3e1fd3d19fb0479d94652d49c7e1ead1 思路 本答案利用前缀和解答,Java,Go答案通过,但是同样的代码用PHP的话有一个测试用例超时 应该还有更优秀的答案,后面找到更优…