Talk | UCSB博士生许闻达:细粒度可解释评估初探

本期为TechBeat人工智能社区551线上Talk。

北京时间11月29(周三)20:00,UC Santa Barbara博士生许闻达的Talk将准时在TechBeat人工智能社区开播!

他与大家分享的主题是: 细粒度可解释评估初探,分享了他们团队在具备解释性的细粒度评估模型的一系列研究成果。

Talk·信息

主题:细粒度可解释评估初探

嘉宾:加州大学圣塔芭芭拉分校博士生 许闻达

时间:北京时间 11月29日(周三)20:00

地点:TechBeat人工智能社区

点击下方链接,即可观看视频!

TechBeatTechBeat是荟聚全球华人AI精英的成长社区,每周上新来自顶尖大厂、明星创业公司、国际顶级高校相关专业在读博士的最新研究工作。我们希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。icon-default.png?t=N7T8https://www.techbeat.net/talk-info?id=829

Talk·介绍

迎接大语言模型时代的同时,面临着NLP中一项令人头疼的大问题:评估文本生成质量。挑战源自于文本的丰富多样性和评估过程中固有的主观性。虽然人工评估目前看来是最可靠的策略,但却因为高昂的成本和主观性的存在而被人诟病。因此,我们急需一种自动化评估模式,这已经成为当前的首要任务之一。

近期,大家注意到,学术界在开发可学习的评估模型上,无论在有监督还是无监督方面,都取得了显著的突破。但遗憾的是,由于评估模型的分数缺乏有效的校准,这些模型仍然无法清晰、直观地告诉我们问题在哪,至此仍缺乏足够的可解释性。

在研究中,我们的团队工作出色,设计了一套具备解释性的细粒度评估模型。我们通过充分利用生成错误的位置、类别和错误程度,来替代染繁复杂的质量分数,让用户能快速掌握文本质量的情况和所在短板。更为惊喜的是,我们发现这些指标不仅能帮助人类理解错误产生的原因, 它还像一位深思熟虑的老师耐心引导学生一样,能利用这些反馈指导大语言模型的生成,从而进一步提升其性能。

Talk大纲

1、近年来可学习评测的发展,以及在大语言模型时代,评测的重要性

2、我们最近在可学习,解释评估上的突破,和其所带来的意义

3、可解释评测带来的细粒度反馈可以如何提升大语言模型的性能

Talk·预习资料

Image

文章链接:https://arxiv.org/abs/2305.14282

Image

文章链接: https://arxiv.org/pdf/2311.09336

Image

文章链接:https://arxiv.org/abs/2212.09305

Talk·提问交流

在Talk界面下的【交流区】参与互动!留下你的打call🤟和问题🙋,和更多小伙伴们共同讨论,被讲者直接翻牌解答!

你的每一次贡献,我们都会给予你相应的i豆积分,还会有惊喜奖励哦!

Talk·嘉宾介绍

​​​​​​​

Image

许闻达

UC Santa Barbara 博士生

许闻达目前是UCSB计算机系博四的学生,导师是UCSB NLP 的王威廉教授和CMU LTI的李磊教授。博士期间主要的研究方向是文本生成评估和大语言模型对齐。以前,于UC Davis获得本科学位,隶属于UC Davis的Computer vision组,主要研究方向为图像分割和无人驾驶。本科所做的Visual SLAM和道路规划曾获得年度最佳毕业设计奖。

以第一作者身份在多个定会发表过多篇论文, 包括AAAI, EMNLP和ACL,并以协作作者身份发表多篇论文。并在字节谷歌等研究院实习。担任多个顶会的审稿人,包括AAAI, EMNLP和ACL。

个人主页: 

TechBeat


关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!

更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/233473.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

界面组件DevExpress Reporting v23.1新版亮点 - UX功能增强

DevExpress Reporting是.NET Framework下功能完善的报表平台,它附带了易于使用的Visual Studio报表设计器和丰富的报表控件集,包括数据透视表、图表,因此您可以构建无与伦比、信息清晰的报表 界面组件DevExpress Reporting v23.1已于前段时间…

python实现获取aws route53域名信息

最近由于工作原因接触到aws的服务,我需要实时获取所有的域名信息,用于对其进行扫描,因此写了一个自动化爬取脚本 给需要的人分享。 1.基础准备 代码环境:python3 第三方库:boto3 (安装方法pip install…

爬虫为什么都选择python语言?爬虫使用代理IP有什么优势?

首先,让我们了解一下为什么爬虫都选择Python语言。 1.语言简洁易学 Python语言的设计哲学是“优雅”、“明确”、“简单”。这使得Python成为一种易于阅读和编写的语言,即使是初学者也可以快速上手。 2. 丰富的库和工具 Python拥有众多的第三方库和工…

【Java 并发编程】进程线程、lock、设计模式、线程池...

博主:_LJaXi Or 東方幻想郷 专栏: Java | 从入门到入坟 Java 并发编程 并发编程多线程的入门类和接口线程组和线程优先级线程的状态及主要转化方法线程间的通信重排序和 happens-beforevolatilesynchronized 与锁CAS 与原子操作AQS计划任务Stream 并行计…

leetcode:循环队列

题目描述 题目链接:622. 设计循环队列 - 力扣(LeetCode) 题目分析 我们开辟空间的时候多开一个,k是队列的长度,我们开k1个空间,定义一个front指向头,back的下一个指向尾 当frontback的时候&am…

Ps:子路径的布尔运算

在“路径”面板的一个路径层上,若存在一个以上的路径时,我们称这些路径为“子路径”。 矢量工具(比如钢笔工具、形状工具以及路径选择工具等)的选项栏上的“路径操作” Path Operations弹出菜单中提供了有关子路径的布尔运算的选项。 尽管在弹…

【LeetCode】栈和队列OJ题---C语言版

栈和队列OJ题 1.括号匹配问题(1)题目描述:(2)思路表述:(3)代码实现: 2.用队列实现栈(1)题目描述:(2)思路表述&…

上海震坤行被评为虹桥生产线互联网服务高质量发展平台

上海震坤行被评为虹桥生产线互联网服务高质量发展平台 10月12日,新一期“潮涌浦江投资虹桥”活动暨“战略赋能新机遇,开放引领新高地”——2023虹桥国际中央商务区投资促进大会在上海虹桥举行。 本次活动旨在释放关于推动虹桥国际开放枢纽进一步提升能级…

rabbitMQ镜像队列的使用

在rabbitMQ集群中,默认发送消息时,队列默认时在一个节点上存在的。 我们以node01 node02 node03三节点集群为例,在node01声明队列发送消息后,发现: 测试队列只在节点node01上出现。 我们手动停止node01后&#xff0c…

scikit-opt几种数值模拟退火的代码示例,和参数详解,以及基础模拟退火的原理代码示例

python基础模拟退火原理示例 模拟退火的特性决定了一般可以用于算法的调参,相比较遗传算法来说,普遍更快一些,但是也更容易陷入局部最优。相对来说,遗传算法的更新解机制是在最每一个局部最优解附近盘旋游荡,则更容易…

MySQL之redo log

聊聊REDO LOG 为什么需要redolog? 那redolog主要是为了保证数据的持久化,我们知道innodb存储引擎中数据是以页为单位进行存储,每一个页中有很多行记录来存储数据,我们的数据最终是要持久化到硬盘中,那如果我们每进行…

卷积神经网络(CNN)注意力检测

文章目录 一、前言二、前期工作1. 设置GPU(如果使用的是CPU可以忽略这步)2. 导入数据3. 查看数据 二、数据预处理1.加载数据2. 可视化数据4. 配置数据集 三、调用官方网络模型四、设置动态学习率五、编译六、训练模型七、模型评估1. Accuracy与Loss图2. …