paddlenlp:社交网络中多模态虚假媒体内容核查

初赛之环境配置篇

  • 一、背景
  • 二、任务
  • 三、数据集
    • 1、初赛阶段
    • 2、评分标准
  • 四、环境操作
  • 五、写在最后

一、背景

随着新媒体时代信息媒介的多元化发展,各种内容大量活跃在媒体内中,与此同时各类虚假信息也充斥着社交媒体,影响着公众的判断和决策。如何在大量的文本、图像等多模态信息中,通过大数据与人工智能技术,纠正和消除虚假错误信息,对于网络舆情及社会治理有着重大意义。

二、任务

本次赛题要求选手基于官方指定数据集,通过建模同一事实跨模态数据之间的关系 (主要是文本和图像),实现对任一模态信息能够进行虚假和真实性的检测。鼓励参赛选手通过大模型解决问题,进行技术探索。

三、数据集

本次比赛提供从国内外主流社交媒体平台上爬取的含有不同领域声明的数据集。

1、初赛阶段

训练集与验证集: 提供中文训练集5694条以及英文数据4893条,同时公开英文验证集611条与中文验证集711条供选手优化模型。

评测数据: 提供文娱、经济、健康领域的测试数据,这些领域的数据较容易区分。英文与中文数据集的测试集各600条。参赛队伍上传的结果文本的每一行就是对应的分类结果,该数据不公布,用于评测。

2、评分标准

采用在三个不同类别上的macro F1的高低进行评分,兼顾了准确率与召回率,是谣言检测领域主流的自动评价指标。自动指标排名是计算两个测试集上的Macro F1平均值排序得到。专家会参考自动指标排名、技术方案和现场陈述进行最终的排名。

四、环境操作

该模型运行在百度的飞桨平台,本文运行的是基于Ernie版的baseline。
1、点击【运行一下】
在这里插入图片描述
2、选择运行的环境,我们选择【V100 32GB】,这里算力卡基本就是依据你图片的入模容量决定。算力卡余额是有限的,所以尽量用【基础版】环境进行代码编写,编写完后再用【V100 32GB】来进行训练。
在这里插入图片描述
3、将/home/aistudio/data/data229919/data.zip 文件拷贝(单击右键进行复制)到根目录,在根目录进行解压(单机右键进行解压),会生成一个 queries_dataset_merge 的文件夹
在这里插入图片描述
4、后续的操作就是右图中的代码运行了,此操作和notebook基本一致,点运行即可,最后等待大约两个小时四十分钟,就能得到训练模型的结果了。

5、模型预测的文件需要改动一下,将这里的路径改为 best_model/model_best.pdparams
在这里插入图片描述
6、最后再把预测结果打包成zip

!zip test.zip result.csv 

五、写在最后

本次记录主要还是以学习为主,花了一个周末的时间,调试和跑通流程。探索了一个带大家最快上手的路径,降低大家的入门难度。下次再和大家分享对baseline的一些学习,以及可以做模型调整的地方。

看完觉得有用的话,记得点个赞,不做白嫖党~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/58479.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring Boot整合ES的两种方式

使用Spring Data Elasticsearch Starter 在Spring Boot中整合Elasticsearch的方式之一是使用Elasticsearch的官方Spring Data Elasticsearch Starter。该Starter提供了对Elasticsearch的高级集成,简化了配置和管理Elasticsearch客户端。 下面是使用Spring Data E…

Mysql的instr()函数用法详解

最近接手了一个大型老项目,用到的jfinal技术,后端大部分都是拼写的sql,对一些sql函数不太理解的我算是一个挑战,也是一个进步的很大空间。 今天来说下instr这个函数 首先看下我们的表数据 我们先执行: SELECT * fro…

【学习笔记】生成式AI(ChatGPT原理,大型语言模型)

ChatGPT原理剖析 语言模型 文字接龙 ChatGPT在测试阶段是不联网的。 ChatGPT背后的关键技术:预训练(Pre-train) 又叫自监督式学习(Self-supervised Learning),得到的模型叫做基石模型(Founda…

重发布选路问题

一、思路 ; 1.增加不优选路开销解决选路不佳问题 2.用增加开销的方式使R1 不将ASBR传的R7传给另一台ASBR解决R1、R2、R3、R4pingR7环回环路 二、操作 ------IP地址配置如图 1.ospf及rip的宣告 rip: [r1]rip 1 [r1-rip-1]version 2 [r1-rip-1]netw…

详细介绍golang中.()类型断言的使用方法

文章目录 一、什么是.()用法?二、.()的基本用法三、.()用法的高级应用3.1 nil类型的转换3.2 将函数作为参数传递 四、.()使用中的注意事项五、总结 Golang是一门非常流行的编程语言,在很多领域都有着广泛的应用。在开发过程中,很多时候我们需…

2021年12月 Python(一级)真题解析#中国电子学会#全国青少年软件编程等级考试

一、单选题(共25题,每题2分,共50分) 第1题 昨天的温度是5摄氏度,今天降温7摄氏度,今天的温度是多少摄氏度? A:12 B:7 C:2 D:-2 正确的答案是 D:-2。 解析: 根据题目描述,昨天的温度是 5 摄氏度,今天降温了 7 摄氏度。降温意味着温度变低,所以今天的温度…

DLA 神经网络的极限训练方法:gradient checkpointing

gradient checkpointing 一般来说,训练的过程需要保存中间结果(不管是GPU还是CPU)。前向传播根据输入(bottom_data)计算输出(top_data),后向传播由top_diff计算bottom_diff(如果某个变量打开梯度进行训练的话&#xff…

Android 获取网络连接状态新方法

一. 问题背景 Android12上,有的app模块判断当前网络的类型和连接状态时,还是使用的旧的API,导致返回的结果不准确,影响代码逻辑判断,本篇文章就这一问题,整理一下判断网络类型和连接状态的新方法。 二. 原因…

CC++内存管理与模版初阶

目录 四、C&C内存管理 (一)C/C内存分布 (二)C内存管理方式 1、new/delete操作内置类型 2、new和delete操作自定义类型 (三)operator new与operator delete函数 (四)new和delete的实现原理 1、内置类型 2、自定义类型 (五)定位new表达式(placement-new) (六)八股文 1、n…

华为发布数字资产继承功能

在华为开发者大会2023(HDC.Together)上,华为常务董事、终端BG CEO、智能汽车解决方案BU CEO余承东正式发布了数字资产继承功能,HarmonyOS提供了安全便捷的数字资产继承路径。 在鸿蒙世界中,我们每个人在每台设备、应用…

Git从远程仓库中删除文件,并上传新文件

目录 删除: 拉取远程分支的更新: ​编辑 首先查看git状态: ​编辑 删除文件并提交版本库: 提交: 上传新文件: 首先查看git状态: 提交到暂存区: 提交到版本库: 上…

windows环境下如何更改pip安装的默认位置

1.查看配置信息 python -m site2.查看配置文件位置 python -m site -help3.修改配置文件 USER_SITE "D:\\soft\\Anaconda\\Lib\\site-packages" USER_BASE "D:\\soft\\Anaconda\\Scripts"如果遇到文件无法保存情况,请给用户增加权限。 4.…