数据集的收集

news/2024/11/15 13:54:53/文章来源:https://www.cnblogs.com/aixin52129211/p/18417664

我在这里找到了一个数据集的网站:https://www.kaggle.com/datasets

我这里找到了三个小数据集为例子分别如下:

 我写的数据分析如下:

1.

数据集名称

房价回归数据集

 

来源

 https://www.kaggle.com/datasets/prokshitha/home-value-insights?resource=download

数据集描述

该数据集包含了多个房屋的属性信息,旨在通过这些属性来预测房屋的售价。属性包括房屋面积、卧室数量、浴室数量、建造年份、地块面积、车库大小以及社区质量评级等。

样本数(大小)

1000

属性个数

7(不包括目标变量)

属性值取值范围

 Square_Footage: 房屋面积(平方英尺),取值范围从几百到几千不等,例如 503.00 - 4999.00

Num_Bedrooms: 卧室数量,整数,取值范围从1到多个,例如 1.00 - 5.00

Num_Bathrooms: 浴室数量,整数或小数(考虑半浴室),取值范围从1.00到多个,例如 1.00 - 10.00

Year_Built: 建造年份,整数,取值范围从较旧年份到较新年份,例如 1950 - 2022

Lot_Size: 地块面积(英亩),小数,取值范围从0.51到接近5,例如 0.51 - 4.99

Garage_Size: 车库大小(可容纳的汽车数量),整数,取值范围从0到多个,例如 0.00 - 10.00

Neighborhood_Quality: 社区质量评级,整数,取值范围从1到10,例如 1 - 10

 

标签数量

1(House_Price)

标签值\取值范围

房价(美元),取值范围从较低到较高,例如 503.00 - 1108236.84 

样本举例

Square_Footage: 1500  

Num_Bedrooms: 3  

Num_Bathrooms: 2.5  

Year_Built: 2000  

Lot_Size: 0.75  

Garage_Size: 2  

Neighborhood_Quality: 8  

House_Price: 350000

面向任务

这是一个回归任务,目标是基于给定的房屋属性来预测房价(House_Price)。

 

2.

数据集名称

班加罗尔餐馆数据集

 

来源

https://www.kaggle.com/datasets/mrmars1010/restaurants-dataset-bengaluru

数据集描述

该数据集提供了班加罗尔市餐厅的详细信息,包括餐厅名称、评分、菜系、位置(包括国家、州/省份、邮政编码、街道地址)、评论、价格范围、附带照片等。这些数据通过复杂的网络爬虫技术从TripAdvisor上精心提取,旨在为研究人员、企业和数据科学家提供有关该市餐饮行业的深入见解。

样本数(大小)

7397

属性个数

15

属性值取值范围

餐厅名称: 字符串,如 "Goila Butter Chicken (GBC)"

地址: 字符串,表示街道地址

地址对象/国家: 字符串,主要是 "印度",但可能包含其他值或空值

地址对象/邮政编码: 整数或字符串,如 "560001"

地址对象/状态: 字符串,可能包含 "其他" 或印度各州/省份的名称

美食: 字符串,表示菜系类型,如 "印度美食"

描述: 字符串,描述餐厅、氛围或菜单

饮食限制: 字符串,如 "素食者" 或 "无麸质"

菜肴: 字符串列表,表示热门或招牌菜肴

特征: 字符串列表,如 "预订座位"、"桌位服务"

纬度、经度: 浮点数,表示餐厅的地理坐标

评论数: 整数,表示评论的数量

评级: 浮点数,表示餐厅的平均评分(如4.5星)

排名分母: 整数,表示用于排名的总餐厅数

排名位置: 整数,表示餐厅在特定排名中的位置

 

标签数量

该数据集主要用于描述性分析和模型训练,没有直接的“标签”用于监督学习任务,但“评级”和“排名位置”可以被视为隐式标签或目标变量,用于回归或排序任务。

标签值\取值范围

评级: 浮点数,取值范围从1到5(或类似范围)

排名位置: 整数,取值范围取决于排名分母的值

 

样本举例

 "餐厅名称": "Goila Butter Chicken (GBC)",  

    "地址": "某街道地址",  

    "地址对象/国家": "印度",  

    "地址对象/邮政编码": "560001",  

    "地址对象/状态": "其他",  

    "美食": "印度美食",  

    "描述": "以其著名的烟熏黄油鸡而闻名...",  

    "饮食限制": "素食者",  

    "菜肴": ["烟熏黄油鸡", "其他招牌菜"],  

    "特征": ["外送", "停车"],  

    "纬度": 12.9716,  

    "经度": 77.5946,  

    "评论数": 123,  

    "评级": 4.5,  

    "排名分母": 1000,  

    "排名位置": 50  

面向任务

分类任务: 根据菜系或特征对餐厅进行分类。

回归任务: 预测餐厅的评级或价格范围。

聚类任务: 基于餐厅的特征进行聚类分析,发现不同的餐厅群体。

情感分析: 对餐厅的评论进行情感分析,了解顾客满意度。

推荐系统: 基于用户偏好和餐厅特征构建推荐系统。

地理空间分析: 利用经纬度信息进行地图绘制和基于位置的分析。

 

 

3.

数据集名称

2024 年 FT 全球商学院 MBA 排名 100 强

 

来源

https://www.kaggle.com/datasets/michaeldelamaza/ft-global-business-school-top-100-mba-ranking-2024

数据集描述

 该数据集包含了《金融时报》在2024年2月11日发布的全球前100所商学院的排名及相关信息。数据涵盖了多个方面,包括学校的综合排名、校友网络、碳足迹、地理位置、职业发展、薪资水平、多样性评估、项目评估以及教师专长等。这些数据对于了解全球商学院的最新动态、评估商学院的整体实力以及为潜在学生提供择校参考具有重要意义。

样本数(大小)

100

属性个数

28

属性值取值范围

秩(排名): 1到100的整数

校友网络排名: 未知范围,但应为整数或排名

碳足迹排名: 未知范围,但应为整数或排名

加权工资(美元): 未知具体范围,但应为正数

职业进步排名、就业服务排名、行业多样性排名等: 未知范围,但应为整数或排名

百分比类属性(如目标实现%、女性比例%等): 0%到100%

其他属性(如国际学生比例、具有博士学位的教师比例等): 0%到100%的百分比,或具体数值(如薪资、人数等)

 

标签数量

该数据集主要用于描述性分析,没有直接的监督学习标签。但如果将排名视为标签,则标签数量为1(即排名)。但更常见的是将各个子属性(如加权工资、职业进步等)视为独立的分析维度,而不是标签。

标签值\取值范围

由于该数据集主要用于描述性分析,不直接包含监督学习标签,因此不适用“标签值\取值范围”的描述。但如果考虑排名作为隐式标签,其取值范围为1到100。

样本举例

 "秩": 1,  

    "学校名称": "哈佛大学商学院",  

    "校友网络排名": 3,  

    "碳足迹排名": 45,  

    "主要校区位置": "美国",  

    "2022年排名": 2,  

    "三年平均排名": 1.5,  

    "2023年排名": 1,  

    "加权工资(美元)": 150000,  

    "职业进步排名": 2,  

    "目标实现(%)": 90,  

    "就业服务排名": 1,  

    "就业三个月(%)": 95,  

    "薪资百分比增长": 10,  

    "现时薪资(美元)": 165000,  

    "国际板(%)": 40,  

    "船上女性比例 (%)": 25,  

    "国际学生(%)": 30,  

    "行业多样性排名": 5,  

    "女性教师 (%)": 45,  

    "女学生(%)": 40,  

    "国际教师 (%)": 20,  

    "性价比排名": 2,  

    "总体满意度": 9.5,  

    "ESG和净零教学排名": 3,  

    "国际机会": 90,  

    "国际流动性排名": 1,  

    "国际课程体验排名": 2,  

    "具有博士学位的教师(%)": 85,  

    "FT研究排名": 1  

面向任务

描述性分析: 分析全球商学院的各项排名和指标,了解整体趋势和个体差异。

比较分析: 对比不同商学院在各项指标上的表现,找出优势和劣势。

预测分析: 虽然该数据集本身不直接用于预测,但可以根据历史排名和趋势预测未来商学院的排名变化。

决策支持: 为潜在学生、教育机构、雇主等提供决策支持,帮助他们做出更明智的选择。

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/798822.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数字签名是什么?

原文:数字签名是什么?文中涉及的密码学基本知识,可以参见对称加密和非对称加密的区别。鲍勃有两把钥匙,一把是公钥,另一把是私钥。鲍勃把公钥送给他的朋友们——帕蒂、道格、苏珊——每人一把。苏珊要给鲍勃写一封保密的信。她写完后用鲍勃的公钥加密,就可以达到保密的效…

存储论——确定性存储模型模型精解

运筹学中的存储问题主要研究如何通过优化库存管理,确保在满足需求的同时,尽可能降低与库存相关的成本。这一问题在生产制造、物流运输、仓储等各个领域具有重要应用。核心目标是通过合理规划进货、存货和出货策略,实现成本最小化和资源的高效利用。在实际应用中,由于需求的…

软工实践第二次作业

这个作业属于哪个课程 https://edu.cnblogs.com/campus/fzu/SE2024这个作业要求在哪里 https://edu.cnblogs.com/campus/fzu/SE2024/homework/13253这个作业的目标 了解小型项目的设计学号 082100170github:完成情况因为对游戏设计没有多大兴趣,所以只是简单地完成了基本的消…

[MySQL]深分页优化

limit深分页为什么会变慢? 先看下表结构: CREATE TABLE account (id int(11) NOT NULL AUTO_INCREMENT COMMENT 主键Id,name varchar(255) DEFAULT NULL COMMENT 账户名,balance int(11) DEFAULT NULL COMMENT 余额,create_time datetime NOT NULL COMMENT 创建时间,update_t…

后台地址改了,忘记了,去哪个文件能查看啊

如果您忘记了EyouCMS后台地址,并且知道后台地址曾经被修改过,可以通过查找相关配置文件来确定后台地址。以下是查找EyouCMS后台地址的一般步骤: 查找EyouCMS后台地址查找登录入口文件:EyouCMS后台登录页面通常是在网站根目录下的某个文件,例如 admin.php 或 login.php。您…

如何查杀空间木马

查杀空间木马通常指的是检测和清除托管在Web服务器上的恶意代码或木马程序。这些木马可能是通过漏洞入侵您的网站或服务器后留下的。以下是一些查杀空间木马的基本步骤: 1. 使用安全软件进行扫描安装安全软件:可以使用如360安全卫士等安全软件来进行木马查杀。如果您的服务器…

后台登陆验证码怎么关闭

关闭后台登录验证码的方法因所使用的CMS系统不同而有所差异。以下是针对几个不同版本的织梦CMS(DedeCms)关闭后台登录验证码的方法: 织梦CMS 5.5 版本打开织梦CMS根目录下的 dede 文件夹。 找到 login.php 文件,并用文本编辑器打开。 查找以下代码:phpif($validate== || $…

开源项目dotnet/eshop 和 dotnet/eshopsupport

dotnet/eshop[1] 和 dotnet/eshopsupport[2] 是两个与 .NET 相关的开源项目,分别用于展示电子商务应用的不同方面。dotnet/eshop:功能与架构:dotnet/eshop 是一个基于 .NET Aspire 的参考电商应用,展示了服务架构在构建现代在线购物平台中的应用。项目涵盖产品目录、购物车和…

忘记eyoucms后台密码怎么办?

如果您忘记了EyouCMS后台的密码,可以通过以下几种方法来重置或恢复密码:使用官方提供的重置工具:官方提供了专门用于重置密码的工具 setpwd.php。您需要下载该文件,并将其上传到网站的根目录下。 访问 http://yousite.com/setpwd.php(将 yousite.com 替换为您自己的域名)…

能否判断自定义变量是否为空?

不同的编程语言有不同的方式来判断一个变量是否为空。下面列出了一些常见编程语言中判断变量是否为空的方法: 1. Java 在Java中,你可以使用多种方法来判断一个变量是否为空:对于对象:检查是否为 null。javaif (object == null) {System.out.println("变量为空");…

孙若涛第一次作业

这个作业属于哪个课程 https://edu.cnblogs.com/campus/zjlg/rjjc/这个作业的目标 介绍自己姓名 学号 孙若涛 2022329301090自我介绍 大家好,我是22电气二班的孙若涛,来自浙江慈溪。 兴趣爱好以及生活经历 我喜欢阅读和旅行,还有游戏。在暑假,我去了日本,度过了一段难忘的…

数字图像处理-实验2

实验E2:图像代数运算 实验2.1:对比度调整设计一个Sigmoid函数,实现对图像的对比度调整,并使得调整幅度可以通过参数控制;通过查阅资料得知,Sigmoid函数的标准形式为:其中,x 表示输入的像素值,并且可以归一化到[0,1]范围内。 k 表示的是控制对比度调整幅度的参数,k 值…