HuggingFists系统功能介绍(2)--数据源账号

数据源

    再次,我们进入“数据源”管理模块。该模块用于管理我们在进行数据处理或分析时所需要的所有数据源。在定义任何的数据流程读写工作之前,必须先通过数据源管理模块创建出对应的数据源。数据源可以是我们需要进行数据处理时,原始数据所在的存储系统;也可是我们处理完的数据要写出或者进行二次读取的存储系统。HuggingFists支持的存储系统如界面所示,包括:数据库、文件系统、事件流以及应用系统四类。其中,事件流在社区版中没有放开。但可以将其简单理解为提供对类似Kafka这样的消息队列数据源的管理。我们可以在社区版中看到其它三类数据源。

数据库数据源

      

数据库数据源列表      

Milvus数据库浏览

        数据库数据源是最为大家所熟知的,他在同类型的数据科学工具最为常见的。传统面向结构化数据处理的数据科学工具对此类数据源支持的都极为丰富,除了关系型数据库外,也拓展了诸如HBase、ElasticSearch、MongoDB等NOSQL类型的数据库。HuggingFists在这方面也在不断完善,目前也支持了包括云端数据库Snowflake在内的20+种数据库类型,限于安装包的大小,社区版预置了少数几种。如需其它类型的数据库,可通过后面介绍的连接器库管理导入对应的数据库连接器即可。为了更全面的支持AI领域的应用,HuggingFists目前支持了Milvus向量库以及腾讯的云向量库。使用者可以使用向量库搭建RAG或图像检索等不同的应用。HuggingFists为其集成的所有数据库都提供了一致操作及查看界面,可以极大的降低使用者的学习成本,当然也牺牲了部分数据库的特点。使用者不能将HuggingFists的数据库管理模块预期为一个专业的数据库管理工具,其定位更多是为了让用户能够对待处理与分析的数据有一个初步的了解。能够对数据进行简单的浏览及查询。HuggingFists对其支持的所有数据库都有通过SQL语句进行检索的能力,即使数据库本身没有。SQL语法兼容SQL92的语法结构,但由于数据库本身的构造差异,所以其提供的SQL语法带有很大程度的数据库特色。比如:Milvus以及腾讯云向量库的SQL语法。HuggingFists采用的SQL语法集成的是数由科技的开源项目“moql-transx”。可以通过该项目了解各数据库的SQL语法详细介绍。

文件系统数据源

      

文件系统数据源列表

HDFS文件系统浏览

        文件系统数据源是为所有用户更熟知的一类数据源,但该类数据源在传统的数据科学工具中却鲜有支持。因为结构化数据是不需要太关注这类数据源的。但最近几年出现的FiveTran、Matillion等几款新ETL工具以及部分RPA(机器人自动化)工具都有对文件系统数据源有了支持。但这些支持更多是算子级别的,就是可以在流程定义中读写这些数据源,但是无法通过界面对数据源进行浏览及管理。HuggingFists则提供了文件系统的管理功能,支持对云文件系统、分布式文件系统以及远程文件系统等进行目录浏览、文件浏览、文件上传、下载等操作。基本兼容使用者在使用本地文件系统时的操作体验,方便使用者对文件系统型数据源进行直观的了解。通过对文件系统型数据源的支持,HuggingFists建立了对非结构化数据处理与分析的基础。支持通过文件系统读取、写出各种类型的文件,并通过流程管理模块完成数据处理与分析流程的搭建。HuggingFists系统安装后会内置一个缺省的文件系统数据源。社区版系统安装完后,会将本地文件系统的特定目录预置为HuggingFists的内置文件系统,HuggingFists内的读取/写出类算子会缺省以内置文件系统作为读取/写出的目标。而企业版的HuggingFists系统则支持将HDFS设置为内置的文件系统。

应用系统数据源

      

应用系统数据源列表

HuggingFace数据源浏览

        应用系统数据源用于提供对各类应用系统数据源的简单浏览功能。如:GitHub、HuggingFace、Tushare、Shodan等。HuggingFists将这些网站或应用视为一类数据源,并针对它们预置了部分连接器。可通过这些连接器创建数据源完成对网站或应用的数据浏览和检索。对于提供了API接口的应用,HuggingFists将每个API接口视为一个数据对象,通过应用数据源界面可以浏览到数据源内的所有API数据对象。选中某个API数据对象,可填充参数,并发起对API的检索请求,并向使用者展示返回结果。

小结

        通过HuggingFists的数据源管理模块,使用者可以一站式的浏览和管理散布在本地、局域网或者互联网上的各类数据。这将给予使用者极大的帮助,不必切换工具,就可将数据尽收眼底。

账号管理

        创建绝大部份数据源时,我们都需要有一个必须填充的信息,就是“认证信息”。这些认证信息在很多情况下会有复用的情况。比如创建MySQL数据源时,我们为不同的数据库建立一个数据源,但是其认证信息可能是复用的。分别为每个数据源都设置一遍认证信息即增加了认证信息泄漏的风险,又增加了认证信息的维护成本。一但密码或者Access Token变更了,需要将所有相关数据源都调整一遍。数据源少的时候,这个维护成本还好承担,一旦数据源多起来就容易搞乱、搞错了。为此,HuggingFists提供了一个统一的账号管理模块。该模块负责管理系统中的所有认证信息,包括数据源相关的认证信息以及算子访问外部API时所需的认证信息。

                        点击界面右上角的”user_name”->”个人设置”->”资源账号”,进入账号管理模块。

资源账号列表

        在账号管理模块中,可以分组查看使用者创建的所有账号。使用者可通过“新建账号”按钮,选择对应的账号模板添加账号。使用者可以不必关注数据源或API接口的认证方式,不需要关心是用户名/密码认证还是OAuth2认证,只需要按照账号模板给出的信息提示填充即可。

        账号模板是可扩充的,其随着连接器和算子的注册添加而同步扩充。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/491486.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

做接口测试的流程一般是怎么样的?UI功能6大流程、接口测试8大流程这些你真的全会了吗?

在讲接口流程测试之前,首先需要给大家申明下:接口测试对于测试人员而言,非常非常重要,懂功能测试接口测试,就能在企业中拿到一份非常不错的薪资。 这么重要的接口测试,一般也是面试笔试必问。为方便大家更…

鸢尾花数据集

鸢尾花数据集 from sklearn.datasets import load_iris from sklearn.datasets import load_iris from sklearn.datasets import fetch_20newsgroups #iris load_iris() #加载花的类别3(山鸢尾,虹膜鸢尾,变色鸢尾),特…

机器学习——CBOW基于矩阵(手动实操)

基于矩阵的CBOW基础算法,其实是负采样的前提算法。 主要是根据 预测准确率为22%左右 说实话。。。我已经很满意了,至少这个东西是可以去预测的,至于预测为什么不正确,我目前猜测主要还是跟词频有关。 在结果中,an…

onlyoffice api开发

编写代码 按照https://api.onlyoffice.com/editors/basic编写代码 <html> <head><meta charset"UTF-8"><meta name"viewport"content"widthdevice-width, user-scalableno, initial-scale1.0, maximum-scale1.0, minimum-scal…

【数据结构初阶 7】二叉树:链式二叉树的基本操作实现

文章目录 &#x1f308; Ⅰ 定义二叉树结点&#x1f308; Ⅱ 创建二叉树结点&#x1f308; Ⅲ 遍历二叉树1. 先序遍历2. 中序遍历3. 后序遍历4. 层序遍历 &#x1f308; Ⅳ 销毁二叉树 &#x1f308; Ⅰ 定义二叉树结点 1. 每个结点都由三部分组成 数据域&#xff1a;存储本结…

matlab绘制雷达图和二维FFT变换图

1、内容简介 略 49-可以交流、咨询、答疑 matlab绘制雷达图和二维FFT变换图 NMO组及NORMAL组 RNFL层、GCL层、IPL层、GCC层、ORL层做雷达图&#xff08;共10张&#xff09; 2、内容说明 略 NMO组及NORMAL组 RNFL层、GCL层、IPL层、GCC层、ORL层请分别做雷达图&#xff08…

linux之前后端项目部署与发布

目录 前言 简介 一、安装Nginx 二、后端部署 2.1多个tomcat负载均衡 2.2 负载均衡 2.3 后端项目部署 三、前端部署 1.解压前端 2.Nginx配置文件修改 3.IP域名映射 4.重启Nginx服务 前言 上篇博主已经讲解过了单机项目的部署linux之JAVA环境配置JDK&Tomcat&a…

Linux基础命令—系统服务

基础知识 centos系统的开机流程 1)通电 2)BIOS硬件检查 3)MBR引导记录 mbr的引导程序 加载引导程序 让硬件加载操作系统内核 MBR在第一个磁盘第一个扇区 总大小512字节 mbr: 1.引导程序: 占用446字节用于引导硬件,加载引导程序 2.分区表: 总共占…

文献阅读:Large Language Models are Null-Shot Learners

文献阅读&#xff1a;Large Language Models are Null-Shot Learners 1. 文章简介2. 方法介绍3. 实验考察 & 结论 1. 基础实验 1. 实验设计2. 实验结果 2. 消融实验 1. 小模型上的有效性2. ∅CoT Prompting3. 位置影响4. 组成内容 4. 总结 & 思考 文献链接&#xff1…

Zookeeper客户端命令、JAVA API、监听原理、写数据原理以及案例

1. Zookeeper节点信息 指定服务端&#xff0c;启动客户端命令&#xff1a; bin/zkCli.sh -server 服务端主机名:端口号 1&#xff09;ls / 查看根节点下面的子节点 ls -s / 查看根节点下面的子节点以及根节点详细信息 其中&#xff0c;cZxid是创建节点的事务id&#xff0c…

Python 鼠标模拟

鼠标模拟即&#xff1a;通过python 进行模拟鼠标操作 引入类库 示例如下&#xff1a; import win32api import win32con import time 设置鼠标位置 设置鼠标位置为窗口中的回收站。 示例如下&#xff1a; # 设置鼠标的位置 win32api.SetCursorPos([30, 40]) 双击图标 设置…

vue:find查找函数实际开发的使用

find的作用&#xff1a; find 方法主要是查找数组中的属性&#xff0c;会遍历数组&#xff0c;对每一个元素执行提供的函数&#xff0c;直到找到使该函数返回 true 的元素。然后返回该元素的值。如果没有元素满足测试函数&#xff0c;则返回 undefined。 基础使用&#xff1a…