数据审计 -本福德定律 Benford‘s law (sample database classicmodels _No.6)

数据审计 -本福德定律 Benford’s law

准备工作,可以去下载 classicmodels 数据库资源如下
[ 点击:classicmodels]

也可以去我的博客资源下载

文章目录

    • 数据审计 -本福德定律 Benford's law
  • 前言
    • 一、什么是 本福德定律?
    • 二、数学公式
    • 三、应用领域
    • 四、应用(看看是否有 会计、审计和欺诈检测。)
    • 总结


前言

假设 classicmodels 公司的 CEO 想知道 自己的 公司的数据是可能造假,于是找到了 小Tom kk 帮他分析数据。

一、什么是 本福德定律?

本福特定律,也称为本福德法则,说明一堆从实际生活得出的数据中,以1为首位数字的数的出现机率约为总数的三成,接近期望值1/9的3倍。推广来说,越大的数,以它为首几位的数出现的机率就越低。它可用于检查各种数据是否有造假。

本福特定律最早由数学家暨天文学家纽康伯(Simon Newcomb)在1881年观察到,而通用电器公司的物理学家本福特(Frank Benford)博士在1938年正式将其公开发表。这一定律因其贡献而被命名为本福特定律。本福特通过对各种数值数据的分析,确定了从1到9中以任意数字n作为第一位数的概率为log10(1+1/n)。

在我们的日常生活中,以数字1开头的数字在各个领域中出现的频率似乎要高于其他数字。这就是著名的本福特定律,也被称为“第一位数定律”或者“首位数现象”。本文将详细介绍本福特定律的历史背景、原理,并且探讨它的应用领域和实际意义。

大家可以去看 下 百度的文章,

在这里插入图片描述

二、数学公式

以n开头的数的出现概率为log10(1 + 1/n)。

三、应用领域

会计欺诈检测
在刑事审判中的使用
宏观经济数据
价格数字分析
基因组数据

四、应用(看看是否有 会计、审计和欺诈检测。)

也称为第一位数字定律,规定在来自许多(但不是全部)现实生活数据源的数字列表中,前导数字以特定的、不均匀的方式分布。准确地说,P(d) = log 10 (1 + 1/d),其中 d 是 1-9 范围内的数字。因此,如果您对某列有 n 个观察值,则每个数字的预期值为 n*log 10 (1 + 1/d)

编写 SQL 代码来计算 Payments 中金额第一位数字的观察值和预期值。

您需要使用卡方统计量来检验观察到的数据是否遵循本福德定律。
本福德定律

SELECT LEFT(amount,1) as Digit, COUNT(*) as Observed,
ROUND((SELECT COUNT(*) FROM Payments)*LOG10(1+1/left(amount,1)),0) as Expected
FROM Payments
GROUP BY Digit, Expected
ORDER BY Digit;

在这里插入图片描述
卡方统计

excel 永远是神器

在这里插入图片描述
在这里插入图片描述

用CHISQ.TEST进行卡方检验,得到P值,如果P值小于0.05,则拒绝观察的样本跟期望的样本比例一致。
在这里插入图片描述

总结

本福德定律在在统计学用的比较多。特别是上市公司财报。最后谢谢大家。

希望大家喜欢 , 谢谢大家,我一直在一边面试,一边学习,一边考证,一边写作,充实自己。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/506483.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

通讯录(下)

通讯录中我们在上一期中说明需要实现的函数,和需要创建的项目,今天我们就来实现contact.c项目中的函数实现。注意我们要在该项目中包含.h中的头文件。 1.初始化 void InitContact(contact* con) { SeqListInit(con); LoadContact(con); } 2.添加联系人…

前缀和算法题(区间次方和、小蓝平衡和、大石头的搬运工、最大数组和)

一、前缀和的原理和特点 prefix表示前缀和,前缀和由一个用户输入的数组生成。对于一个数组a[](下标从1开始),我们定义一个前缀和数组prefix[],满足: prefix有一个重要的特性,可以用于快速生成p…

推荐系统实战(基于机器学习/深度学习)

文章目录 推荐系统介绍什么是推荐系统?推荐系统的应用为什么需要推荐系统推荐系统发展推荐系统的目标怎样评价推荐系统效果推荐系统里的常用词推荐系统经典流程推荐系统的难点与挑战涉及技术点分析为什么需要深度学习 协同过滤与矩阵分解矩阵分解中的显式与隐式特征…

数据开发流程图

背景:公司处于数仓开发的起步阶段,需要构建一个数据开发的流程 分析:原有业务采集混乱,不受调度管理监控,数据不存储不统一,需要频繁转换 行动:改造原有业务,数据开发流程图如下 结…

Stable Video文本生成视频公测地址——Scaling Latent Video Diffusion Models to Large Datasets

近期,Stability AI发布了首个开放视频模型——"Stable Video",该创新工具能够将文本和图像输入转化为生动的场景,将概念转换成动态影像,生成出电影级别的作品,旨在满足广泛的视频应用需求,包括媒…

云原生之容器编排实践-ruoyi-cloud项目部署到K8S:Nacosv2.2.3

背景 前面搭建好了 Kubernetes 集群与私有镜像仓库,终于要进入服务编排的实践环节了。本系列拿 ruoyi-cloud 项目进行练手,按照 MySQL , Nacos , Redis , Nginx , Gateway , Auth ,…

项目实战 MySQL读写分离【构建主从结构数据库(查从库)(增删改主库)】【ShardingJDBC实现读写分离】

项目实战 MySQL读写分离 1. MySQL主从复制1.1 介绍1.2 搭建1.2.1 准备工作1.2.3 从库配置 2. 读写分离案例2.2 ShardingJDBC介绍 转自-黑马 在前面基础功能实现的过程中,我们后台管理系统及移动端的用户,在进行数据访问时,都是直接操作数据库…

开源模型Mistral 7B+Amazon SageMaker部署指南

一、Mistral 7B简述 Mistral AI 是一家总部位于法国的 AI 公司,其使命是将公开可用的模型提升至最先进的性能水平。他们专注于构建快速而安全的大型语言模型(LLM),此类模型可用于从聊天机器人到代码生成等各种任务。不久前其发布…

Java进阶-IO(4)

前面几篇介绍了java IO的基础部分,现在进入核心内容的学习,如File类、动态读取和序列化等,如下。 一、File类 1、概述 是 java.io 包中唯一代表磁盘文件本身的对象(可以通过 File 类操作文件和目录),定义…

力扣hot100题解(python版48-50题)

48、路径总和III 给定一个二叉树的根节点 root ,和一个整数 targetSum ,求该二叉树里节点值之和等于 targetSum 的 路径 的数目。 路径 不需要从根节点开始,也不需要在叶子节点结束,但是路径方向必须是向下的(只能从…

图论 - 最小生成树(Prime、Kruskal)

文章目录 前言Part 1:Prim算法求最小生成树1.题目描述输入格式输出格式数据范围输入样例输出样例 2.算法 Part 2:Kruskal算法求最小生成树1.题目描述输入格式输出格式数据范围输入样例输出样例 2.算法 前言 本篇博客介绍两种求最小生成树的方法&#xff…

寻址错题本

指令寻址 顺序寻址 通过程序计数器PC自动加1,形成下一条指令的指令地址。 跳跃寻址 通过转移类指令实现跳转到指定的代码段或者子程序。 数据寻址 直接寻址 形式地址A就是操作数的地址EA,执行阶段访问一次存储器。 所以当我们需要取得实际的值(操作数)的时候: 第一步:…