数据集的收集-编程知识

数据集的收集

news/2025/1/11 20:05:00/文章来源:https://www.cnblogs.com/aixin52129211/p/18417664

我在这里找到了一个数据集的网站：https://www.kaggle.com/datasets

我这里找到了三个小数据集为例子分别如下：

我写的数据分析如下：

数据集名称	房价回归数据集
来源	https://www.kaggle.com/datasets/prokshitha/home-value-insights?resource=download
数据集描述	该数据集包含了多个房屋的属性信息，旨在通过这些属性来预测房屋的售价。属性包括房屋面积、卧室数量、浴室数量、建造年份、地块面积、车库大小以及社区质量评级等。
样本数（大小）	1000	属性个数	7（不包括目标变量）		属性值取值范围	Square_Footage: 房屋面积（平方英尺），取值范围从几百到几千不等，例如 503.00 - 4999.00 Num_Bedrooms: 卧室数量，整数，取值范围从1到多个，例如 1.00 - 5.00 Num_Bathrooms: 浴室数量，整数或小数（考虑半浴室），取值范围从1.00到多个，例如 1.00 - 10.00 Year_Built: 建造年份，整数，取值范围从较旧年份到较新年份，例如 1950 - 2022 Lot_Size: 地块面积（英亩），小数，取值范围从0.51到接近5，例如 0.51 - 4.99 Garage_Size: 车库大小（可容纳的汽车数量），整数，取值范围从0到多个，例如 0.00 - 10.00 Neighborhood_Quality: 社区质量评级，整数，取值范围从1到10，例如 1 - 10
标签数量	1(House_Price）	标签值\取值范围		房价（美元），取值范围从较低到较高，例如 503.00 - 1108236.84
样本举例	Square_Footage: 1500 Num_Bedrooms: 3 Num_Bathrooms: 2.5 Year_Built: 2000 Lot_Size: 0.75 Garage_Size: 2 Neighborhood_Quality: 8 House_Price: 350000
面向任务	这是一个回归任务，目标是基于给定的房屋属性来预测房价（House_Price）。

数据集名称	班加罗尔餐馆数据集
来源	https://www.kaggle.com/datasets/mrmars1010/restaurants-dataset-bengaluru
数据集描述	该数据集提供了班加罗尔市餐厅的详细信息，包括餐厅名称、评分、菜系、位置（包括国家、州/省份、邮政编码、街道地址）、评论、价格范围、附带照片等。这些数据通过复杂的网络爬虫技术从TripAdvisor上精心提取，旨在为研究人员、企业和数据科学家提供有关该市餐饮行业的深入见解。
样本数（大小）	7397	属性个数	15		属性值取值范围	餐厅名称: 字符串，如 "Goila Butter Chicken (GBC)" 地址: 字符串，表示街道地址地址对象/国家: 字符串，主要是 "印度"，但可能包含其他值或空值地址对象/邮政编码: 整数或字符串，如 "560001" 地址对象/状态: 字符串，可能包含 "其他" 或印度各州/省份的名称美食: 字符串，表示菜系类型，如 "印度美食" 描述: 字符串，描述餐厅、氛围或菜单饮食限制: 字符串，如 "素食者" 或 "无麸质" 菜肴: 字符串列表，表示热门或招牌菜肴特征: 字符串列表，如 "预订座位"、"桌位服务" 纬度、经度: 浮点数，表示餐厅的地理坐标评论数: 整数，表示评论的数量评级: 浮点数，表示餐厅的平均评分（如4.5星）排名分母: 整数，表示用于排名的总餐厅数排名位置: 整数，表示餐厅在特定排名中的位置
标签数量	该数据集主要用于描述性分析和模型训练，没有直接的“标签”用于监督学习任务，但“评级”和“排名位置”可以被视为隐式标签或目标变量，用于回归或排序任务。	标签值\取值范围		评级: 浮点数，取值范围从1到5（或类似范围）排名位置: 整数，取值范围取决于排名分母的值
样本举例	"餐厅名称": "Goila Butter Chicken (GBC)", "地址": "某街道地址", "地址对象/国家": "印度", "地址对象/邮政编码": "560001", "地址对象/状态": "其他", "美食": "印度美食", "描述": "以其著名的烟熏黄油鸡而闻名...", "饮食限制": "素食者", "菜肴": ["烟熏黄油鸡", "其他招牌菜"], "特征": ["外送", "停车"], "纬度": 12.9716, "经度": 77.5946, "评论数": 123, "评级": 4.5, "排名分母": 1000, "排名位置": 50
面向任务	分类任务: 根据菜系或特征对餐厅进行分类。回归任务: 预测餐厅的评级或价格范围。聚类任务: 基于餐厅的特征进行聚类分析，发现不同的餐厅群体。情感分析: 对餐厅的评论进行情感分析，了解顾客满意度。推荐系统: 基于用户偏好和餐厅特征构建推荐系统。地理空间分析: 利用经纬度信息进行地图绘制和基于位置的分析。

数据集名称	2024 年 FT 全球商学院 MBA 排名 100 强
来源	https://www.kaggle.com/datasets/michaeldelamaza/ft-global-business-school-top-100-mba-ranking-2024
数据集描述	该数据集包含了《金融时报》在2024年2月11日发布的全球前100所商学院的排名及相关信息。数据涵盖了多个方面，包括学校的综合排名、校友网络、碳足迹、地理位置、职业发展、薪资水平、多样性评估、项目评估以及教师专长等。这些数据对于了解全球商学院的最新动态、评估商学院的整体实力以及为潜在学生提供择校参考具有重要意义。
样本数（大小）	100	属性个数	28		属性值取值范围	秩（排名）: 1到100的整数校友网络排名: 未知范围，但应为整数或排名碳足迹排名: 未知范围，但应为整数或排名加权工资（美元）: 未知具体范围，但应为正数职业进步排名、就业服务排名、行业多样性排名等: 未知范围，但应为整数或排名百分比类属性（如目标实现%、女性比例%等）: 0%到100% 其他属性（如国际学生比例、具有博士学位的教师比例等）: 0%到100%的百分比，或具体数值（如薪资、人数等）
标签数量	该数据集主要用于描述性分析，没有直接的监督学习标签。但如果将排名视为标签，则标签数量为1（即排名）。但更常见的是将各个子属性（如加权工资、职业进步等）视为独立的分析维度，而不是标签。	标签值\取值范围		由于该数据集主要用于描述性分析，不直接包含监督学习标签，因此不适用“标签值\取值范围”的描述。但如果考虑排名作为隐式标签，其取值范围为1到100。
样本举例	"秩": 1, "学校名称": "哈佛大学商学院", "校友网络排名": 3, "碳足迹排名": 45, "主要校区位置": "美国", "2022年排名": 2, "三年平均排名": 1.5, "2023年排名": 1, "加权工资（美元）": 150000, "职业进步排名": 2, "目标实现（%）": 90, "就业服务排名": 1, "就业三个月（%）": 95, "薪资百分比增长": 10, "现时薪资（美元）": 165000, "国际板(%)": 40, "船上女性比例 (%)": 25, "国际学生（%）": 30, "行业多样性排名": 5, "女性教师 (%)": 45, "女学生（%）": 40, "国际教师 (%)": 20, "性价比排名": 2, "总体满意度": 9.5, "ESG和净零教学排名": 3, "国际机会": 90, "国际流动性排名": 1, "国际课程体验排名": 2, "具有博士学位的教师（%）": 85, "FT研究排名": 1
面向任务	描述性分析: 分析全球商学院的各项排名和指标，了解整体趋势和个体差异。比较分析: 对比不同商学院在各项指标上的表现，找出优势和劣势。预测分析: 虽然该数据集本身不直接用于预测，但可以根据历史排名和趋势预测未来商学院的排名变化。决策支持: 为潜在学生、教育机构、雇主等提供决策支持，帮助他们做出更明智的选择。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/798822.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

数字签名是什么？

原文：数字签名是什么？文中涉及的密码学基本知识，可以参见对称加密和非对称加密的区别。鲍勃有两把钥匙，一把是公钥，另一把是私钥。鲍勃把公钥送给他的朋友们——帕蒂、道格、苏珊——每人一把。苏珊要给鲍勃写一封保密的信。她写完后用鲍勃的公钥加密，就可以达到保密的效…

存储论——确定性存储模型模型精解

运筹学中的存储问题主要研究如何通过优化库存管理，确保在满足需求的同时，尽可能降低与库存相关的成本。这一问题在生产制造、物流运输、仓储等各个领域具有重要应用。核心目标是通过合理规划进货、存货和出货策略，实现成本最小化和资源的高效利用。在实际应用中，由于需求的…

软工实践第二次作业

这个作业属于哪个课程 https://edu.cnblogs.com/campus/fzu/SE2024这个作业要求在哪里 https://edu.cnblogs.com/campus/fzu/SE2024/homework/13253这个作业的目标了解小型项目的设计学号 082100170github：完成情况因为对游戏设计没有多大兴趣，所以只是简单地完成了基本的消…

limit深分页为什么会变慢？先看下表结构： CREATE TABLE account (id int(11) NOT NULL AUTO_INCREMENT COMMENT 主键Id,name varchar(255) DEFAULT NULL COMMENT 账户名,balance int(11) DEFAULT NULL COMMENT 余额,create_time datetime NOT NULL COMMENT 创建时间,update_t…

后台地址改了，忘记了，去哪个文件能查看啊

如果您忘记了EyouCMS后台地址，并且知道后台地址曾经被修改过，可以通过查找相关配置文件来确定后台地址。以下是查找EyouCMS后台地址的一般步骤：查找EyouCMS后台地址查找登录入口文件：EyouCMS后台登录页面通常是在网站根目录下的某个文件，例如 admin.php 或 login.php。您…

如何查杀空间木马

查杀空间木马通常指的是检测和清除托管在Web服务器上的恶意代码或木马程序。这些木马可能是通过漏洞入侵您的网站或服务器后留下的。以下是一些查杀空间木马的基本步骤： 1. 使用安全软件进行扫描安装安全软件：可以使用如360安全卫士等安全软件来进行木马查杀。如果您的服务器…

后台登陆验证码怎么关闭

关闭后台登录验证码的方法因所使用的CMS系统不同而有所差异。以下是针对几个不同版本的织梦CMS（DedeCms）关闭后台登录验证码的方法：织梦CMS 5.5 版本打开织梦CMS根目录下的 dede 文件夹。找到 login.php 文件，并用文本编辑器打开。查找以下代码：phpif($validate== || $…

开源项目dotnet/eshop 和 dotnet/eshopsupport

dotnet/eshop[1] 和 dotnet/eshopsupport[2] 是两个与 .NET 相关的开源项目，分别用于展示电子商务应用的不同方面。dotnet/eshop:功能与架构：dotnet/eshop 是一个基于 .NET Aspire 的参考电商应用，展示了服务架构在构建现代在线购物平台中的应用。项目涵盖产品目录、购物车和…

忘记eyoucms后台密码怎么办？

如果您忘记了EyouCMS后台的密码，可以通过以下几种方法来重置或恢复密码：使用官方提供的重置工具：官方提供了专门用于重置密码的工具 setpwd.php。您需要下载该文件，并将其上传到网站的根目录下。访问 http://yousite.com/setpwd.php（将 yousite.com 替换为您自己的域名）…

能否判断自定义变量是否为空？

不同的编程语言有不同的方式来判断一个变量是否为空。下面列出了一些常见编程语言中判断变量是否为空的方法： 1. Java 在Java中，你可以使用多种方法来判断一个变量是否为空：对于对象：检查是否为 null。javaif (object == null) {System.out.println("变量为空");…

孙若涛第一次作业

这个作业属于哪个课程 https://edu.cnblogs.com/campus/zjlg/rjjc/这个作业的目标介绍自己姓名学号孙若涛 2022329301090自我介绍大家好，我是22电气二班的孙若涛，来自浙江慈溪。兴趣爱好以及生活经历我喜欢阅读和旅行，还有游戏。在暑假，我去了日本，度过了一段难忘的…