BERT(从理论到实践): Bidirectional Encoder Representations from Transformers【3】

这是本系列文章中的第3弹,请确保你已经读过并了解之前文章所讲的内容,因为对于已经解释过的概念或API,本文不会再赘述。

本文要利用BERT实现一个“垃圾邮件分类”的任务,这也是NLP中一个很常见的任务:Text Classification。我们的实验环境仍然是Python3+Tensorflow/Keras。


一、数据准备

首先,载入必要的packages/libraries。

import tensorflow as tf
import tensorflow_hub as hub
import tensorflow_text as text
import numpy as np
import pandas as pd
import seaborn as snfrom sklearn.metrics import confusion_matrix, classification_report
from sklearn.model_selection import train_test_split
from matplotlib import pyplot as plt

接下来,导入数据,这是一个CSV文件,里面包含了很多邮件文本(参见【1】)。

df = pd.read_csv("spam.csv")
df.head(5)

这里我们输出前5条数据作为演示:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/323465.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

对低效的会议说“不!”

根据微软对全球 31, 000 名员工开展的一项调查,低效的会议是影响工作效率的第一大干扰因素,其次是召开过多的会议。 大大小小的同步会、讨论会、审查会、复盘会不仅将工作时间拆解得支离破碎,还会让成员因「会议恢复综合症」而无法立即从无效…

DevOps(9)

目录 45.如何在Linux中将一个文件附加到另一个文件? 46.解释如何使用终端找到文件? 47.解释如何使用终端创建文件夹? 48.解释如何使用终端查看文本文件? 49.解释如何在Ubuntu LAMP堆栈上启用curl? 50.解释如何在…

排除启动类故障----三大实验

目录 一、模拟破坏mbr和分区表然后修复 二、修复grub引导故障 三、遗忘root用户密码 一、模拟破坏mbr和分区表然后修复 1、mbr处于第一块磁盘的第一个物理扇区,总共512个字节,前446个字节是grub程序,后面64个字节是分区表 2、故障原因&a…

# [NOIP2016 提高组] 玩具谜题#洛谷

题目背景 NOIP2016 提高组 D1T1 题目描述 小南有一套可爱的玩具小人,它们各有不同的职业。 有一天,这些玩具小人把小南的眼镜藏了起来。小南发现玩具小人们围成了一个圈,它们有的面朝圈内,有的面朝圈外。如下图: 这…

基于多反应堆的高并发服务器【C/C++/Reactor】(中)创建并初始化TcpServer实例

对于一个TcpServer来说,它的灵魂是什么?就是需要提供一个事件循环EventLop(EventLoop),不停地去检测有没有客户端的连接到达,有没有客户端给服务器发送数据,描述的这些动作,反应堆模型能够胜任。当服务器和…

再次拓宽信创生态版图,思迈特与统信软件完成产品兼容适配认证

近日,思迈特软件与统信软件科技有限公司(简称“统信软件”)完成产品兼容性适配互认证,加速国产信创生态化建设进程。 本次测试由商业智能与数据分析软件(简称:Smartbi Insight V11)产品与统信服…

SQL中 Group by Grouping Sets 分组的用法

文章目录 1. 用法2. 语法3. 实际应用3.1 求总和与小计3.2 按多个维度分组3.3 标记小计和总计 1. 用法 将Grouping Sets 运算符添加到Group by 子句中,使用Grouping Set 可以在一个查询中指定数据的多个分组,其结果与针对指定的组执行union all 运算等效…

数据结构基本概念

数据结构 数据结构是相互之间存在一种或多种特定关系的数据元素的集合。它包括数据的逻辑结构、数据的存储结构和数据的基本运算。 数据的逻辑结构 数据的逻辑结构是指数据元素之间的逻辑关系。所谓逻辑关系是指数据元素之间的关联方式或“邻接关系”。 逻辑结构与数据元素本…

GeoServe本地部署结合内网穿透实现远程访问Web管理界面

文章目录 前言1.安装GeoServer2. windows 安装 cpolar3. 创建公网访问地址4. 公网访问Geo Servcer服务5. 固定公网HTTP地址 前言 GeoServer是OGC Web服务器规范的J2EE实现,利用GeoServer可以方便地发布地图数据,允许用户对要素数据进行更新、删除、插入…

DevOps(8)

目录 36.当发出的命令与上次使用时产生的结果不同时,会出现什么问题? 37./usr /local的内容是什么? 38.你如何终止正在进行的流程? 39.如何在命令行提示符中插入注释? 40.什么是命令分组以及他是如何工作的&…

知虾电商(Shopee):东南亚领先电商平台的十大关键特点**

知虾电商(Shopee)作为东南亚地区领先的电子商务平台,由Sea Group(前称Garena)在2015年创立。知虾电商以移动优先的策略迅速崛起,为用户提供了一个便捷、安全的在线购物环境。以下是知虾电商的一些关键特点&…

MapInfo Pro和Python基础知识

MapInfo Pro用户长期以来一直使用MapBasic脚本语言来自动化任务、构建自定义应用程序、创建Pro的特定领域自定义、将Pro与其他工具集成等。 MapBasic主要是一种编译语言,这对非程序员来说有点障碍。 我们确实有MapBasic窗口,它允许MapBasic语句和代码直接…