使用SQL分析数据科学职业发展趋势

大家好,在数据成为新石油的今天,了解数据科学职业的细微差别比以往任何时候都更加重要。无论你是正在寻找机会的数据爱好者,还是资深数据专家,使用SQL都可以让你深入了解数据科学就业市场。

本文可以带你了解哪些数据科学职位最具吸引力,或者哪些职位能够提供最高薪水,同时将深入研究数据科学就业市场,从而解答这些问题。

本文将使用的数据集旨在揭示2021年至2023年期间数据科学领域的薪资模式。通过重点关注工作历史、工作职位以及公司地点等因素,该数据集为了解该行业的工资分布情况提供了重要依据。

本文将为以下问题找到答案:

  1. 不同经验水平的平均工资是什么样的?

  2. 数据科学领域中最常见的职位名称是什么?

  3. 薪资分布如何随公司规模变化?

  4. 数据科学岗位主要位于哪些地理位置?

  5. 数据科学中哪些职位提供薪酬最高?

可以从Kaggle下载这些数据。

【数据集】:https://www.kaggle.com/code/zabihullah18/data-science-salary-trend

1. 不同经验水平的平均工资

在这个SQL查询中,正在找出不同经验水平的平均工资,GROUP BY子句按经验水平对数据进行分组,AVG函数计算每个组的平均工资。这有助于了解该领域的经验如何影响收入潜力,这对规划数据科学的职业道路至关重要。

接下来查看一下代码:

SELECT experience_level, AVG(salary_in_usd) AS avg_salary
FROM salary_data
GROUP BY experience_level;

现在使用Python可视化这个输出:

# 导入绘图所需的库
import matplotlib.pyplot as plt
import seaborn as sns
# 设置图表样式
sns.set(style="whitegrid")# 初始化用于存储图形的列表
graphs = []plt.figure(figsize=(10, 6))
sns.barplot(x='experience_level', y='salary_in_usd', data=df, estimator=lambda x: sum(x) / len(x))
plt.title('Average Salary by Experience Level')
plt.xlabel('Experience Level')
plt.ylabel('Average Salary (USD)')
plt.xticks(rotation=45)
graphs.append(plt.gcf())
plt.show()

现在来比较一下入门级和资深级、中级和高级的工资。

首先从入门级和资深级的开始:

# 筛选入门级和资深级的数据
entry_experienced = df[df['experience_level'].isin(['Entry_Level', 'Experienced'])]# 筛选中级和高级数据
mid_senior = df[df['experience_level'].isin(['Mid-Level', 'Senior'])]# 绘制入门级与资深级的对比图表
plt.figure(figsize=(10, 6))
sns.barplot(x='experience_level', y='salary_in_usd', data=entry_experienced, estimator=lambda x: sum(x) / len(x) if len(x) != 0 else 0)
plt.title('Average Salary: Entry_Level vs Experienced')
plt.xlabel('Experience Level')
plt.ylabel('Average Salary (USD)')
plt.xticks(rotation=45)
graphs.append(plt.gcf())
plt.show()

这是生成的图表:

图片

现在绘制中级和高级的工资:

# 绘制中级和高级的图表
plt.figure(figsize=(10, 6))
sns.barplot(x='experience_level', y='salary_in_usd', data=mid_senior, estimator=lambda x: sum(x) / len(x) if len(x) != 0 else 0)
plt.title('Average Salary: Mid-Level vs Senior')
plt.xlabel('Experience Level')
plt.ylabel('Average Salary (USD)')
plt.xticks(rotation=45)
graphs.append(plt.gcf())
plt.show()

图片

2. 数据科学领域中最常见的职位名称

我们将提取数据科学领域中前10个最常见的职位名称,COUNT函数会统计每个职位名称的出现次数,并按降序排列结果,从而将最常见的职位名称排在最前面。

通过这些信息,可以了解就业市场的需求情况,从而确定自己可以瞄准的潜在职位目标。接下来查看一下代码。

SELECT job_title, COUNT(*) AS job_count
FROM salary_data
GROUP BY job_title
ORDER BY job_count DESC
LIMIT 10;

使用Python来可视化这个查询:

plt.figure(figsize=(12, 8))
sns.countplot(y='job_title', data=df, order=df['job_title'].value_counts().index[:10])
plt.title('Most Common Job Titles in Data Science')
plt.xlabel('Job Count')
plt.ylabel('Job Title')
graphs.append(plt.gcf())
plt.show()

接下来看看图表:

图片

3. 薪资分布如何随公司规模变化

在这个查询中,提取了每个公司规模分组的平均薪资、最低薪资和最高薪资,使用AVGMINMAX等聚合函数有助于全面了解薪资情况与公司规模的关系。

这些数据非常重要,因为它们可以帮助你了解可以期望的潜在收入,这取决于你想要加入的公司的规模。

SELECT company_size, AVG(salary_in_usd) AS avg_salary, MIN(salary_in_usd) AS min_salary, MAX(salary_in_usd) AS max_salary
FROM salary_data
GROUP BY company_size;

使用Python来可视化这个查询:

plt.figure(figsize=(12, 8))
sns.barplot(x='company_size', y='salary_in_usd', data=df, estimator=lambda x: sum(x) / len(x) if len(x) != 0 else 0, order=['Small', 'Medium', 'Large'])
plt.title('Salary Distribution by Company Size')
plt.xlabel('Company Size')
plt.ylabel('Average Salary (USD)')
plt.xticks(rotation=45)
graphs.append(plt.gcf())
plt.show()

以下是输出结果:

图片

4. 数据科学岗位主要位于哪些地理位置

在此我们确定了拥有最多数据科学职位机会的前10个地点,使用COUNT函数来确定每个地点的职位发布数量,并按降序排列,以突出显示机会最多的地区。

掌握了这些信息,可以帮助读者了解数据科学职位的中心地理区域,有助于做出潜在的迁移决定。

SELECT company_location, COUNT(*) AS job_count
FROM salary_data
GROUP BY company_location
ORDER BY job_count DESC
LIMIT 10;

使用Python来绘制上述代码的图表:

plt.figure(figsize=(12, 8))
sns.countplot(y='company_location', data=df, order=df['company_location'].value_counts().index[:10])
plt.title('Geographical Distribution of Data Science Jobs')
plt.xlabel('Job Count')
plt.ylabel('Company Location')
graphs.append(plt.gcf())
plt.show()

请查看如下所示的图表:

图片

5. 数据科学领域中哪些职位提供薪酬最高

在这里我们确定数据科学领域中薪资最高的前10个职位头衔。通过使用AVG,本文计算出每个职位头衔的平均薪资,并根据平均薪资的降序排序,以突出显示最赚钱的职位。

通过查看这些数据,可以在自己的职业道路上有所追求,接下来继续了解读者如何为这些数据创建Python可视化。

SELECT job_title, AVG(salary_in_usd) AS avg_salary
FROM salary_data
GROUP BY job_title
ORDER BY avg_salary DESC
LIMIT 10;

以下是输出结果:

排名职位头衔平均薪资(美元)
1数据科学技术主管375,000.00
2云数据架构师250,000.00
3数据主管212,500.00
4数据分析主管211,254.50
5首席数据科学家198,171.13
6数据科学总监195,140.73
7首席数据工程师192,500.00
8机器学习软件工程师192,420.00
9数据科学经理191,278.78
10应用科学家190,264.48

大家可以尝试自己创建一个图表。提示:可以使用以下ChatGPT中的提示来生成此图形的Pythonic代码:

<SQL Query here>Create a Python graph to visualize the top 10 highest-paying job titles in Data Science, similar to the insights gathered from the given SQL query above.# <SQL查询代码># 创建一个Python图形来可视化数据科学领域中薪资最高的前10个职位头衔,类似于上述给定SQL查询所得到的见解。

本文对数据科学职业世界进行多种探索,希望SQL能成为一个可靠的指南,帮助大家发掘出有关支持职业决策的见解。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/174613.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CTFSHOW 文件上传

web151 JS前端绕过 直接上传 png的图片马 然后抓包修改为php asystem("ls /var/www/html"); asystem("cat /var/www/html/flag.php"); web152 和151一样的方法也可以实现上传 asystem("ls /var/www/html"); asystem("cat /var/www/html…

springboot容器

1.主要指的是servlet容器 servlet组件由sevlet Filter Listener等 2.自动配置原理 通过ServletWebServerFactoryAutoConfiguration 配置这些内容 (自动配置类开始分析功能) conditionalOnclass开启条件 ServletRequest类 import导入嵌入式的tomcat Jetty等 这些是配置类&…

高效使用 PyMongo 进行 MongoDB 查询和插入操作

插入到集合中&#xff1a; 要将记录&#xff08;在MongoDB中称为文档&#xff09;插入到集合中&#xff0c;使用insert_one()方法。insert_one()方法的第一个参数是一个包含文档中每个字段的名称和值的字典。 import pymongomyclient pymongo.MongoClient("mongodb://l…

统计好书推荐:《统计至简》

电子版网址&#xff1a; Higkoo/Book5_Essentials-of-Probability-and-Statistics - 码云 - 开源中国 (gitee.com) GitHub - Visualize-ML/Book5_Essentials-of-Probability-and-Statistics: Book_5_《统计至简》 | 鸢尾花书&#xff1a;从加减乘除到机器学习&#xff1b;上…

Springboot 程序实现加密,禁止 jadx 反编译

在Spring Boot中实现程序加密和禁止jadx反编译是一个复杂的问题。虽然无法完全禁止反编译&#xff0c;但可以通过一些技术手段来提高代码的安全性。 以下是一些可能的措施&#xff1a; 使用混淆工具&#xff1a;使用Java代码混淆工具&#xff08;如ProGuard或YGuard&#xff0…

Linux各种版本安装详细步骤和root密码破解

文章目录 VMware新建虚拟机硬件设置设置虚拟网络DHCP设置(规划下IP地址)挂载ISO文件加电&#xff0c;开始安装虚拟机 root密码破解 VMware新建虚拟机 硬件设置 设置虚拟网络 编辑>虚拟网络编辑器>VMnet8(NAT模式) DHCP设置(规划下IP地址) 这样将来安装好的虚拟机的IP…

学者观察 | 联邦学习与区块链、大模型等新技术的融合与挑战-北京航空航天大学童咏昕

导语 当下&#xff0c;数据已成为经济社会发展中不可或缺的生产要素&#xff0c;正在发挥越来越大的价值。但是在数据使用过程中&#xff0c;由于隐私、合规或者无法完全信任合作方等原因&#xff0c;数据的拥有者并不希望彻底和他方共享数据。为解决原始数据自主可控与数据跨…

什么是代理模式,用 Python 如何实现 Proxy(代理 或 Surrogate)对象结构型模式?

什么是代理模式&#xff1f; 代理&#xff08;Proxy&#xff09;是一种结构型设计模式&#xff0c;其目的是通过引入一个代理对象来控制对另一个对象的访问。代理对象充当目标对象的接口&#xff0c;这样客户端就可以通过代理对象间接地访问目标对象&#xff0c;从而在访问过程…

C 语言实现 UDP

广播 发送广播信息&#xff0c;局域网中的客户端都可以接受该信息 #include <stdio.h> #include <stdlib.h> #include <unistd.h> #include <string.h> #include <arpa/inet.h>int main() {// 1.创建一个通信的socketint fd socket(PF_INET, …

[Go语言]SSTI从0到1

[Go语言]SSTI从0到1 1.Go-web基础及示例2.参数处理3.模版引擎3.1 text/template3.2 SSTI 4.[LineCTF2022]gotm1.题目源码2.WP 1.Go-web基础及示例 package main import ("fmt""net/http" ) func sayHello(w http.ResponseWriter, r *http.Request) { // 定…

浅谈JavaScript闭包,小白的JS学习之路!

前言 在JavaScript中&#xff0c;闭包是一种强大而灵活的特性&#xff0c;它不仅允许变量私有化&#xff0c;而且提供了一种在函数执行完毕后仍然保持对外部作用域变量引用的机制。本文将深入讨论JavaScript闭包的概念、优点、缺点以及如何避免潜在的内存泄漏问题。 调用栈与…

linux基础知识

一、Linux权限详解 Linux的文件权限有以下设定&#xff1a; Linux下文件的权限类型一般包括读&#xff0c;写&#xff0c;执行。对应字母为 r、w、x。 Linux下权限的属组有 拥有者 、群组 、其它组 三种。每个文件都可以针对这三个属组&#xff08;粒度&#xff09;&#x…