目录
🚀一. TableAgent—新AI时代的数据分析智能体
🔎1.1 基于DataCanvas Alaya九章元识大模型
🔎1.2 TableAgent的亮点
🚀二. 使用TableAgent分析数据与传统机器学习分析数据对比
🔎2.1 项目背景
🔎2.2 数据准备
🦋2.3 对于现有Go语言岗位城市可视化数据分析
🦋2.3.1 使用TableAgent分析数据(基础分析)
🦋2.3.2 传统机器学习数据分析实现
🦋2.3.3 分析结果验证与优点对比
🦋2.4 对于现有JAVA语言岗位城市可视化数据分析
🦋2.4.1 使用TableAgent分析数据(深度测试分析)
🙈2.4.1.1 按照城市地点分析数据,画出城市占比饼图和热力图。
🙈2.4.1.2 不同学历背景的职位招聘需求有何变化?
🙈2.4.1.3 哪些公司在最近一段时间内保持高速的发展?
🙈2.4.1.4 根据学历要求对数据进行分类,并比较不同分类的平均新资差异
🦋2.4.2 传统机器学习分析数据
🦋2.4.2 验证结果与分析结果
🚀三.总结与心得
🔎3.1心得
🔎3.2优化建议
🔎3.2 总结
🚀附录
在当今这个数据驱动的时代,数据智能分析已经成为了企业决策的关键。而TableAgent,作为一款强大的数据智能分析工具,正逐渐受到业界的关注和青睐。本文将带你深入了解TableAgent,探讨如何利用它玩转数据智能分析,为企业创造更大的价值。
TableAgent 本次升级的一大亮点是可以为企业提供私有化部署。Code Interpreter对国内众多企业用户的最大障碍是企业数据因为安全性、合规等种种原因,不能传输到线上的共有服务平台。TableAgent为企业提供私有化部署,系统部署在企业内部,数据不外流,从根本上解决了安全合规的问题,同时TableAgent也可以满足企业级数据的大规模、高性能分析的要求,这也是Code Interpreter目前的短板。
各位读者大家好,我是一见已难忘,资深技术专家,对人工智能方向有所研究,数据分析是我们研究道路上必须经历,也是必须掌握的内容,这是我们研究人员尝尝感到头痛的一步,由于数据的多维性,特殊性,我们经常被头脑中的惯性所拘束,我发现 TableAgent的功能解决了我们的痛点。今天我们就来深度体验一下TableAgent 新AI时代的数据分析智能体,并以我之前基于机器学习的程序员岗位分析项目为例,将使用TableAgent与传统机器学习中的数据分析进行深度体验,深入剖析对比,多维度体验来凸显我们TableAgent的强大之处吧!
🚀一. TableAgent—新AI时代的数据分析智能体
TableAgent是一款数据集成和分析平台,它可以帮助用户从多个数据源中轻松地采集、处理和分析数据。它提供了一系列强大的功能,如数据导入、数据清洗、数据建模、数据查询、数据可视化和工作流,使得用户可以更加高效、方便地进行数据分析。
TableAgent支持多种数据源,包括关系型数据库、文件、API等,用户可以从这些数据源中采集数据。在采集数据后,TableAgent可以自动化地进行数据清洗和处理,以去除数据中的噪声和冗余信息。同时,TableAgent还提供了各种可视化工具,帮助用户更直观地理解和分析数据。此外,TableAgent还支持自定义工作流程,可以自动化数据集成和分析任务。
TableAgent是一款功能强大的数据集成和分析平台,它让用户可以轻松地从多个数据源中采集、处理和分析数据,并且提供了各种可视化和自动化工具,提高了数据分析的效率和精度。
产品体验地址:TableAgent (datacanvas.com)
🔎1.1 基于DataCanvas Alaya九章元识大模型
DataCanvas Alaya是九章云极DataCanvas自研的“通识+产业”白盒大模型矩阵,作为AI Foundation Software的核心能力之一,秉持开放友好的开源理念,为用户赋予更大自由度的AI创新能力,以求加速实现大模型在多元业务场景中的应用。DataCanvas Alaya九章元识大模型提供了一系列不同配置和参数的,具备业界前沿能力和技术的预训练大模型,在文本对话,图像生成,特别是DataPilot方面重塑当前AI软件形态
产品官网:九章云极DataCanvas——人工智能基础软件供应商
🔎1.2 TableAgent的亮点
经过我的学习,总结了TableAgent的亮点主要包括以下几个方面:
- 启发式和引导式分析:TableAgent可以根据用户的分析意图和分析结果,推荐更多相关的、具有启发性和引导性的问题。这相当于有一个专业的数据分析师帮助用户分析数据,提供建议,激发灵感,从而更高质量地完成数据分析工作。
- 自动化和智能化:TableAgent通过自动化和智能化的技术,可以大大提高数据分析的效率和准确性。它能根据数据的特点和业务需求,自动选择合适的数据分析方法和模型,避免了手动操作和错误的出现。
- 私有化部署:TableAgent支持私有化部署,这意味着企业可以将TableAgent部署在自己的服务器上,确保数据的安全性,满足企业的合规要求。
- 强大的意图理解能力:TableAgent有非常强大的意图理解能力、分析建模能力和洞察力。它能在充分理解用户意图后,利用统计科学、机器学习、因果推断等高级建模技术从数据中挖掘价值。
- 支持企业级数据分析:TableAgent支持企业级数据分析,具备大规模、高性能的特点,能满足企业复杂的数据分析需求。
- 会话式数据分析:TableAgent提供会话式数据分析功能,用户可以通过自然语言与系统进行交互,直观地获取所需的数据分析结果。
🚀二. 使用TableAgent分析数据与传统机器学习分析数据对比
🔎2.1 项目背景
招聘网站的职位招聘数据深入剖析:
随着中国经济的快速发展,各行各业对于人才的需求日益增长,招聘市场也因此蓬勃发展。招聘网站作为连接企业和求职者的桥梁,扮演着重要的角色。为了更好地理解市场的需求和变化,对招聘网站的职位招聘数据进行可视化分析变得至关重要。
然而,现有的数据分析方法在处理海量、多维度的招聘数据时存在一定的局限性,如数据量大、维度多、关系复杂等。这使得企业和求职者难以直观地理解市场趋势和需求,从而影响招聘和求职的效率。
为了解决这一问题,我们提出了一项针对招聘网站职位招聘数据的可视化分析项目。该项目旨在通过先进的数据可视化技术,将海量、多维度的招聘数据转化为直观、易懂的图表和图像,帮助企业和求职者更好地理解市场趋势和需求,提高招聘和求职的效率。
通过深入挖掘和分析招聘网站的数据,我们可以为不同行业、地区、职位的招聘需求进行可视化呈现,为招聘者和求职者提供更加精准的匹配服务。同时,该项目还可以为企业决策者提供市场趋势预测和决策支持,为行业的可持续发展提供有力支持。
综上所述,该项目的实施具有重要的现实意义和商业价值,有望推动招聘市场的健康发展,提高人才资源的配置效率。
🔎2.2 数据准备
本项目数据文件如下:
对比过程将采用多维度,多方面来分别使用TableAgent分析数据与传统机器学习分析数据的效果进行深度对比剖析。
🦋2.3 对于现有Go语言岗位城市可视化数据分析
采用数据:D-3-Go岗.csv
数据规模:1700条
🦋2.3.1 使用TableAgent分析数据(基础分析)
1.进入TableAgent页面,在页面右侧上传数据:A-03-GO岗职位(处理后)_20221207_132349.csv
2.想模型提问:按照城市地点分析数据,画出城市占比饼图和热力图。
分析模型:
步骤:
- 获取每个城市的职位数量: 调用pandas的value_counts()函数来对df中的'城市'列进行计数
- 计算每个城市的职位数量占总职位数量的比例: 将city_counts的值除以city_counts的总和
- 根据城市职位比例绘制饼图: 使用matplotlib的pie()函数,以city_ratio的值作为输入,绘制饼图
采用分析代码:
# 使用matplotlib的pie()函数,以city_ratio的值作为输入,绘制饼图import matplotlib.pyplot as pltfig, ax = plt.subplots()ax.pie(city_ratio, labels=city_ratio.index, autopct='%1.1f%%')city_ratio_plot = fig
输出图像:
结果分析:
根据给定的数据分析结果,可以得出不同城市在"Go岗位"的城市分布占比。以下是一些可能的结论:
1. 深圳、北京和上海是主要的Go岗位集中城市:
- 深圳占比最高,为23.94%。
- 北京和上海分别为23.29%和20.51%。这三个城市集中了大部分的Go岗位,显示出这些地区在Go语言开发领域的需求较大。
2. 杭州、成都和广州占据中间地位:
- 杭州占比为10.40%,相对较高,显示出在杭州地区也有一定数量的Go岗位。
- 成都和广州的占比相似,都为7.57%,这两个城市也在Go岗位的分布中占有一定比例。
3. 武汉、南京和西安的Go岗位需求相对较低:
- 武汉的占比为3.49%,南京为1.71%,西安为1.54%。这三个城市相对而言在Go岗位需求上较为较低。
综合而言,深圳、北京和上海是Go岗位需求最高的城市,而其他城市也在不同程度上有一定数量的Go岗位需求。这些结论可以为求职者、招聘者或相关行业研究人员提供一些指导,帮助他们更好地了解Go语言开发领域的就业市场。
🦋2.3.2 传统机器学习数据分析实现
实现代码:
import pandas as pdimport seaborn as snsimport matplotlib.pyplot as pltfrom matplotlib.font_manager import FontProperties# 设置中文字体plt.rcParams['font.sans-serif'] = ['SimHei'] # 指定默认字体为中文黑体plt.rcParams['axes.unicode_minus'] = False # 解决负号显示问题# 读取CSV文件file_path = '1.csv' # 替换为你的CSV文件路径df = pd.read_csv(file_path)# 创建画布和子图fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))# 饼图city_count = df['城市'].value_counts()labels = city_count.indexsizes = city_count.valuesax1.pie(sizes, labels=labels, autopct='%1.1f%%', startangle=140)ax1.axis('equal') # Equal aspect ratio ensures that pie is drawn as a circle.ax1.set_title('城市占比饼图')# 热力图heatmap_data = df.pivot_table(index='城市', aggfunc='size').fillna(0)sns.heatmap(heatmap_data.to_frame(), annot=True, fmt="g", cmap="YlGnBu", cbar_kws={'label': '数量'}, ax=ax2)ax2.set_title('城市热力图')# 调整布局plt.tight_layout()# 显示图形plt.show()
这段代码使用了两个主要的Python库:`pandas` 和 `matplotlib`,并做了一些特定的设置来分析城市占比数据并绘制饼图。
1. 导入库:
- `import pandas as pd`: 导入`pandas`库,并使用`pd`作为别名,方便后续的代码中使用。
- `import matplotlib.pyplot as plt`: 导入`matplotlib.pyplot`库,并使用`plt`作为别名,方便后续的代码中使用。
2. 设置中文字体:
- `plt.rcParams['font.sans-serif'] = ['SimHei']`: 设置Matplotlib的默认字体为中文黑体,以确保中文字符正常显示。
- `plt.rcParams['axes.unicode_minus'] = False`: 解决Matplotlib中负号显示的问题。
3. 读取CSV文件:
- `file_path = '1.csv'`: 指定CSV文件的路径,这里需要替换为你实际的CSV文件路径。
- `df = pd.read_csv(file_path)`: 使用`pandas`的`read_csv`函数读取CSV文件,并将数据存储在名为`df`的DataFrame中。
4. 统计城市分布:
- `city_count = df['城市'].value_counts()`: 使用`value_counts()`方法统计数据中城市的分布情况,结果存储在`city_count`中。
5. 生成饼图:
- `labels = city_count.index`: 获取城市分布的标签(城市名称)。
- `sizes = city_count.values`: 获取城市分布的数值(占比)。
- `plt.pie(sizes, labels=labels, autopct='%1.1f%%', startangle=140)`: 使用`matplotlib.pyplot`的`pie`函数生成饼图,其中`sizes`是数据,`labels`是标签,`autopct`用于显示百分比,`startangle`设置饼图的起始角度。
- `plt.axis('equal')`: 设置坐标轴的刻度,确保饼图是一个正圆。
- `plt.title('城市占比饼图')`: 设置饼图的标题。
6. 显示饼图:
- `plt.show()`: 显示生成的饼图。
这段代码通过分析CSV文件中的城市数据,使用饼图清晰地展示了各个城市在数据中的占比情况。
🦋2.3.3 分析结果验证与优点对比
经过上文TableAgent 和传统机器学习分析数据的可视化简单案例,可以看到,答案相同无误,并且输出图像相似,验证了TableAgent 分析数据的可靠性与准确性。
博主在使用传统机器学习的方法撰写,分析数据,输出可视化图像,耗时约30min。在使用TableAgent进行数据分析只需要1min左右,而且其正确率很高,并且给出了分析思路,分析过程,运行代码,以及最终的可视化结果,并且还有非常详细的结果分析,原因分析。这大大的提高了我们分析数据的时间,也为不了解机器学习、深度学习的朋友们提供了可以无代码分析数据的可能性。本人认为TableAgent 的产品是革命性的,是非常的可靠、准确,我相当的看好本产品。
当然,我们下面还需更加深度的测评、体验、对比、分析。
🦋2.4 对于现有JAVA语言岗位城市可视化数据分析
采用数据:D-2-Java岗.csv
数据规模:2800条
🦋2.4.1 使用TableAgent分析数据(深度测试分析)
🙈2.4.1.1 按照城市地点分析数据,画出城市占比饼图和热力图。
1.进入TableAgent 向其提问:按照城市地点分析数据,画出城市占比饼图和热力图。
从这个数据中,我们可以看出,上海的职位数量最多,达到了418个,其次是北京,职位数量为406个。广州、深圳和成都的职位数量也相对较多,分别为401个、399个和375个。杭州的职位数量相对较少,为347个。
上海的职位数量占总职位数量的比例最高,为15.03%,其次是北京,职位数量占总职位数量的比例为14.59%。广州、深圳和成都的职位数量占总职位数量的比例也相对较高,分别为14.41%、14.34%和13.48%。杭州的职位数量占总职位数量的比例相对较低,为12.69%。
为了更直观地展示这些数据,我们还绘制了城市职位占比的饼图和热力图。以下是城市职位占比的饼图:
我们发现,在进行数据分析之后,他还会智能的推荐我们进一步的查询推荐:
关于此问题,可能还有以下几个方向可以进行进一步的查询:
求出平均薪资最高的职位是哪些?
哪些城市的平均薪资在上层75%?
不同学历背景的职位招聘需求有何变化?
🙈2.4.1.2 不同学历背景的职位招聘需求有何变化?
进一步提问:不同学历背景的职位招聘需求有何变化?
分析回答如下:
根据我们的数据分析,不同学历的职位需求数量如下:
从上表中我们可以看出,本科学历的职位需求数量最多,达到了2466个,其次是大专学历,数量为237个。不限学历和硕士学历的职位需求数量分别为48个和31个。
这个数据表明,虽然本科学历的职位需求数量最多,但是大专学历的职位需求数量也在逐年增加。这可能是因为近年来,随着高等教育的普及,更多的人获得了本科或硕士学历,因此,对大专学历的职位需求也在增加。
以下是学历要求与职位需求数量的柱状图,可以更直观地看出各学历层次的职位需求数量:
从图中可以看出,本科和硕士学历的职位需求数量明显高于大专和不限学历,这与我们的数据表格是一致的。
总的来说,虽然大专学历的职位需求数量在增加,但是本科和硕士学历的职位需求数量仍然是最多的。这可能是因为本科和硕士学历的职位更容易吸引和留住人才,因此,企业对这两种学历的职位需求数量最多。
到这里就分析完了,但是我们的平台还是给了我们进一步分析的思路,那么好,我们继续跟着思路进行分析:
🙈2.4.1.3 哪些公司在最近一段时间内保持高速的发展?
提问:
哪些公司在最近一段时间内保持高速的发展?
数据分析回答:
根据我们的数据分析,以下是最近一段时间内保持高速发展的公司:外企德科人力资源服务
- 京北方
- 中电金信
- SHEIN
- 汇合
这些公司的职位发布数量和薪资变化数据如下:
这些公司的高速发展可能与他们的业务策略、市场定位、以及与客户的良好关系等因素有关。同时,他们的高速发展也可能反映出市场对他们的产品或服务的需求增加,或者他们的产品或服务的质量和服务水平得到了消费者的认可。
🙈2.4.1.4 根据学历要求对数据进行分类,并比较不同分类的平均新资差异
提问:
根据城市的不同,拉取出部分工作岗位的职位名称、薪资和公司名称。
分析回答:
根据我们的数据,我们可以看到每个城市的部分工作岗位的职位名称、薪资和公司名称。例如,以下是成都市的部分工作岗位的信息:
这个表格显示了每个工作岗位的职位名称、薪资和公司名称。你可以根据这些信息选择你的工作岗位。例如,如果你喜欢Java开发,并且薪资在11k-18k之间,那么你可以考虑在联龙博通公司工作。
博主点评:非常的详细,并且我看了之后这个数据没有问题,总结清洗的很到位!!!
🦋2.4.2 传统机器学习分析数据
传统机器学习分析数据的话几乎上上文分析go职位的思路和代码相同了。这里就不多重复了,直接贴出输出图像即可。
这个结果还是需要我们自己根据结果来分析,上文的TableAgent就完美的分析了结果。博主表示大大的好评!!!TableAgent对我们的帮助很大。
🦋2.4.2 验证结果与分析结果
根据传统机器学习分析数据的可视化结果,可以验证TableAgent 的准确性。俩种数据分析相对比,可以看出TableAgent数据分析的优势是巨大的。
相同需求:还需更加深度的测评、体验、对比、分析。
我们可以对比看到可视化结果:
传统机器学习可视化结果:
TableAgent 可视化结果:
通过俩者对比,我们看出是大相不差的。从这点可以看出TableAgent 可以帮助哪些不懂数据分析的人员也可以做到像茶叶数据分析多年的水平,这点大大提高了我们的工作效率。
而且TableAgent 还可以帮助我们分析结果,提供详细的数据分析,看出导致数据起伏的原因,并且继续原因推理,这点是非常强的。
上海的职位数量占总职位数量的比例最高,为15.03%,其次是北京,职位数量占总职位数量的比例为14.59%。广州、深圳和成都的职位数量占总职位数量的比例也相对较高,分别为14.41%、14.34%和13.48%。杭州的职位数量占总职位数量的比例相对较低,为12.69%。
重点来了:TableAgent 还可以帮助我们对数据进一步分析,在上文,我不但解决了 按照城市地点分析数据,画出城市占比饼图和热力图,还解决了如下问题:
- 不同学历背景的职位招聘需求有何变化?
- 哪些公司在最近一段时间内保持高速的发展?
- 根据学历要求对数据进行分类,并比较不同分类的平均新资差异
解决了四个数据分析问题所需的时间都远远小于我用传统机器学习方法去分析一个数据分析问题的时间,这个效率提升的不是一点半点!
🚀三.总结与心得
🔎3.1心得
通过对TableAgent的体验可以说是爱不释手了,一直到使用次数用完才肯罢休。本次的TableAgent给我带来了极大的震撼!
通过这次深度的体验TableAgent ,我的心得感触是非常的深!我总结一下:
- 我通过提出问题的方式,使用TableAgent对GO和Java语言岗位的城市可视化数据进行深度测试分析。通过分析城市地点,绘制了城市占比饼图和热力图,清晰地展示了不同城市的职位数量分布。这种可视化方式使数据更加直观,便于理解和比较。
- 我进一步对数据进行了不同维度的分析,如不同学历背景的职位需求变化、保持高速发展的公司识别以及根据学历要求对数据进行分类比较。这种深入分析为读者提供了更多角度的了解,帮助他们更好地理解市场趋势和公司需求。
- 重点来了:TableAgent还提供了智能推荐,引导读者进行进一步的查询,如平均薪资最高的职位、不同城市平均薪资的比较以及不同学历背景的职位招聘变化等。这种个性化的推荐为读者提供了更多深入挖掘数据的可能性,增强了分析的全面性和深度。
- TableAgent的高效性和便捷性是非常的nice!TableAgent与传统机器学习方法相比的优势是非常巨大的。通过对比可视化结果和传统机器学习的结果,我展示了TableAgent在数据分析上的准确性和效率,特别是在解决多个数据分析问题时的迅速响应。
🔎3.2优化建议
在我深度使用过程中,有一次出现的Bug让我印象颇深。回顾一下:
提问:根据学历要求对数据进行分类,并比较不同分类的平均新资差异。
回答:
报错详情:
TypeError: Could not convert 5k-6k15k-24k15k-25k30k-50k8k-15k30k-60k30k-60k2k-4k1k-2k15k-30k18k-26k3k-4k7k-10k2k-3k12k-20k2k-3k10k-15k14k-19k15k-20k15k ... to numeric Traceback (most recent call last): File "ai_code.py", line 2, in
经过我的开发经验判断:这个错误通常发生在试图将非数值型的数据转换为数值型时。在这里,可能的原因是字符串中包含了非法字符(比如字母"k"),这导致无法直接将其转换为数值。
这个错误是发生在我数据分析过程中的,我在多次提问根据学历要求对数据进行分类,并比较不同分类的平均新资差异。问题无果后,转而提问了其他方向的数据分析问题,总体来说TableAgent的表现是十分优秀的,相信这个bug在以后的迭代中就会解决掉!
🔎3.2 总结
近年来,数据分析在各行各业中变得愈发重要,而随之而来的是对于高效、准确数据分析工具的需求。在这一背景下,TableAgent作为一款新兴的数据分析工具,以其高效性和实用性引起了广泛关注。
TableAgent作为一款高效实用的数据分析利器,在解决Java语言岗位城市可视化数据分析中展现出了强大的功能。其智能推荐、深度分析和高效性,为用户提供了全面而便捷的数据分析体验,成为当前数据分析领域的一颗璀璨明珠。随着数据分析的不断发展,我们有理由期待TableAgent在更多领域中的广泛应用。
TableAgent的优点:
- 启发式和引导式分析:TableAgent可以根据用户的分析意图和分析结果,推荐更多相关的、具有启发性和引导性的问题。这相当于有一个专业的数据分析师帮助用户分析数据,提供建议,激发灵感,从而更高质量地完成数据分析工作。
- 自动化和智能化:TableAgent通过自动化和智能化的技术,可以大大提高数据分析的效率和准确性。它能根据数据的特点和业务需求,自动选择合适的数据分析方法和模型,避免了手动操作和错误的出现。
- 私有化部署:TableAgent支持私有化部署,这意味着企业可以将TableAgent部署在自己的服务器上,确保数据的安全性,满足企业的合规要求。
- 强大的意图理解能力:TableAgent有非常强大的意图理解能力、分析建模能力和洞察力。它能在充分理解用户意图后,利用统计科学、机器学习、因果推断等高级建模技术从数据中挖掘价值。
- 支持企业级数据分析:TableAgent支持企业级数据分析,具备大规模、高性能的特点,能满足企业复杂的数据分析需求。
- 会话式数据分析:TableAgent提供会话式数据分析功能,用户可以通过自然语言与系统进行交互,直观地获取所需的数据分析结果。
到了最后的总结了,我通过传统机器学习的数据分析方法与TableAgent数据方法分别对GO和JAVA职位的多维度分析对比,通过具体案例说明了TableAgent其在提高工作效率和深度分析方面的优势。这对于那些不擅长传统机器学习方法或希望更高效地进行数据分析的人来说,提供了一种有力的工具和解决方案。TableAgent的优点也是非常的突出,启发式和引导式分析、自动化和智能化、私有化部署、强大的意图理解能力、支持企业级数据分析、会话式数据分析等等每一项功能对于我们数据分析行业来说都是革命性的,我相信未来TableAgent通过不断迭代更新,会越来越强!
🚀附录
本文涉及产品官网入口:
产品体验地址:TableAgent (datacanvas.com)
产品官网:九章云极DataCanvas——人工智能基础软件供应商