零门槛的向量数据库「GitHub 热点速览」

news/2025/1/8 13:06:18/文章来源:https://www.cnblogs.com/xueweihan/p/18656682

上周,DeepSeek-V3 将训练大模型的成本给打下来了,但训练大模型对普通开发者来说仍然门槛很高。所以,本期的热门开源项目聚焦于降低 LLM 应用开发的入门门槛。

极易上手的向量数据库 chroma 用起来十分方便,只需一行命令 pip install chromadb 就能轻松拥有一个向量数据库,用于存储和检索向量数据。接下来是专为构建实时 AI 应用的 Python ETL 框架 pathway,它提供了简单易用的 Python API 和可视化监控界面,全面提升 LLM 应用处理数据的效率。同样开箱即用的 Rust 全栈 Web 框架 Loco,则将 Rails 的开发体验与 Rust 的高性能相结合,是快速开发 Web 应用不错的选择。

最后是两个相见恨晚的开源项目,Python 项目打包神器 pex,它为 Python 项目提供了一键部署的丝滑体验。以及可以轻松部署家庭多媒体中心的 docker-xiaoya。

  • 本文目录
    • 1. 热门开源项目
      • 1.1 极易上手的向量数据库:chroma
      • 1.2 Rust 的全栈 Web 框架:Loco
      • 1.3 开箱即用的端口扫描工具:RustScan
      • 1.4 实时更新的轻量级推荐系统:monolith
      • 1.5 构建实时 AI 系统的 Python 框架:pathway
    • 2. HelloGitHub 热评
      • 2.1 相见恨晚的 Python 项目打包工具:pex
      • 2.2 一键部署完整的家庭多媒体中心:docker-xiaoya
    • 3. 结尾

1. 热门开源项目

1.1 极易上手的向量数据库:chroma

主语言:RustStar:16.3k周增长:400

这是一款专为 AI 应用设计的开源向量数据库(Embedding Database),支持 Python、JavaScript、Rust 等多种编程语言。它提供了简单易用的 API 和多种启动模式(内存、文件存储、服务器),支持基于 embedding 模型的自动向量化处理,以及查询、过滤、密度估计等操作,适用于快速构建基于语义的搜索和推荐等应用。

import chromadb
client = chromadb.Client()collection = client.create_collection("all-my-documents")
collection.add(documents=["This is document1", "This is document2"], # we handle tokenization, embedding, and indexing automatically. You can skip that and add your own embeddings as wellmetadatas=[{"source": "notion"}, {"source": "google-docs"}], # filter on these!ids=["doc1", "doc2"], # unique for each doc
)results = collection.query(query_texts=["This is a query document"],n_results=2,# where={"metadata_field": "is_equal_to_this"}, # optional filter# where_document={"$contains":"search_string"}  # optional filter
)

GitHub 地址→github.com/chroma-core/chroma

1.2 Rust 的全栈 Web 框架:Loco

主语言:RustStar:6.4k周增长:600

该项目是受 Ruby on Rails 启发的 Rust Web 框架,专为帮助开发者快速构建 Web 应用而设计。它结合了类似 Rails 的开发体验和 Rust 的高性能优势,支持 ORM 集成、后台任务、中间件(认证、日志、错误处理)、生成部署配置等功能,适用于开发个人项目和初创企业的 Web 应用。

GitHub 地址→github.com/loco-rs/loco

1.3 开箱即用的端口扫描工具:RustScan

主语言:RustStar:15k

这是一个用 Rust 开发的端口扫描工具,能够在 3 秒内扫描指定 IP 的所有端口。它提供了灵活的脚本引擎,支持 Python、Lua 和 Shell 脚本,开发者可以根据需求自定义脚本,实现个性化的扫描和处理逻辑。

GitHub 地址→github.com/RustScan/RustScan

1.4 实时更新的轻量级推荐系统:monolith

主语言:PythonStar:6.6k周增长:2.4k

该项目是字节跳动开源的一款轻量级推荐系统,旨在提升推荐系统的准确性和实时性。它基于 TensorFlow 构建,支持无冲突嵌入表(collisionless embedding tables)、批量和实时训练等功能,能够快速响应用户的行为变化,并及时更新模型,提升推荐效果。

GitHub 地址→github.com/bytedance/monolith

1.5 构建实时 AI 系统的 Python 框架:pathway

主语言:PythonStar:12k周增长:1.4k

这是一个专为流处理、实时分析、LLM 管道和 RAG 应用设计的 Python ETL 框架。它底层采用 Rust 引擎,具备高吞吐和低延迟的实时处理能力,同时提供简单易用的 Python API 和可视化监控面板,支持多种数据源、数据转换和持久化等功能。

GitHub 地址→github.com/pathwaycom/pathway

2. HelloGitHub 热评

在此章节中,我们将为大家介绍本周 HelloGitHub 网站上的热门开源项目,我们不仅希望您能从中收获开源神器和编程知识,更渴望“听”到您的声音。欢迎您与我们分享使用这些开源项目的亲身体验和评价,用最真实反馈为开源项目的作者注入动力。

2.1 相见恨晚的 Python 项目打包工具:pex

主语言:Python

这是一个开源的 Python 项目打包工具,专为跨环境部署和无法访问公网的部署场景设计。它能够将 Python 项目及其所有依赖,甚至是 Python 解释器(可选),打包成单个可执行文件(.pex),让开发者无需安装运行环境,即可直接运行 Python 程序,支持 Linux 和 macOS 系统。

项目详情→hellogithub.com/repository/5c47cbf587f448fd8c4106436b3de8e3

2.2 一键部署完整的家庭多媒体中心:docker-xiaoya

主语言:Shell

该项目提供了一键部署 Alist、Emby 和 Jellyfin 服务的解决方案,帮你轻松构建完整的家庭多媒体中心,支持 Linux、macOS、Windows 等平台。

项目详情→hellogithub.com/repository/c0360e74337e448b852ab96ea4382a62

3. 结尾

以上就是本期「GitHub 热点速览」的全部内容,希望这些开源项目能激发你的兴趣,成为你下一个值得尝试的工具!如果你有其他好玩、有趣的 GitHub 开源项目想要分享,欢迎来 HelloGitHub 与我们交流和讨论。

往期回顾

  • 神仙打架的一期
  • 双语对照的 PDF 翻译工具

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/865177.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Hopper Disassembler 5 (macOS, Linux) - 反汇编、反编译和调试

Hopper Disassembler 5 (macOS, Linux) - 反汇编、反编译和调试Hopper Disassembler 5 (macOS, Linux) - 反汇编、反编译和调试 The macOS and Linux Disassembler 请访问原文链接:https://sysin.org/blog/hopper/ 查看最新版。原创作品,转载请保留出处。 作者主页:sysin.or…

OpenVX设计概述

OpenVX设计概述 软件环境 OpenVX旨在直接由应用程序使用,或作为更高级别视觉框架、引擎或平台API的加速层,如图 2-1所示。图 2-1. OpenVX 软件使用概述设计目标 OpenVX被设计为标准化计算机视觉功能的框架,能够在各种平台上运行,并可能通过供应商在该平台上的实施来加速。O…

推荐《AI芯片开发核心技术详解》、《智能汽车传感器:原理设计应用》、《TVM编译器原理与实践》、《LLVM编译器原理与实践》4本书

4本书推荐《AI芯片开发核心技术详解》、《智能汽车传感器:原理设计应用》、《TVM编译器原理与实践》、《LLVM编译器原理与实践》由清华大学出版社资深编辑赵佳霓老师策划编辑的新书《AI芯片开发核心技术详解》已经出版,京东、淘宝天猫、当当等网上,相应陆陆续续可以购买。该…

Diffusion

所以我可以理解成这里其实是计算一条轨迹每个点都要用来预测噪声?是的,你的理解是正确的。 在这个公式中: \( \min_\theta \mathcal{L}(\theta) = \min_\theta \mathbb{E}_{c,t,x_0 \sim q(x), \epsilon \sim \mathcal{N}(0, I)} \| \epsilon - \epsilon_\theta (x_t, t, c)…

Android AMS学习笔记

Android AMS学习笔记AMSActivity管理模块、Service管理模块、BroadcastReceiver管理模块、ContentProvider管理模块、进程管理模块、App错误管理模块、App性能分析模块 App端框架上图先简单介绍下App端框架的运行过程:凡是从ActivityManagerService过来的数据,都需要经过Appl…

Android:PMS学习笔记

Android:PMS学习笔记概述:https://mp.weixin.qq.com/s/i6LlSf8kHOBOk5iKoVVoxA 概述包含哪些部分:权限管理模块负责apk权限相关的事情,比如请求某个权限,apk权限状态存储,收集所有apk声明的权限 共享库模块负责apk使用到的所有共享库 记录存储模块会把apk相关的很多信息记…

Android 权限管理系统学习笔记

权限管理系统(PackageManagerService) 权限管理系统所做的事情大体可以分为管理声明的权限、管理App使用的权限、权限的授予/撤销、资源使用记录这四类。权限管理系统大体分为权限控制器App、管理类、服务类三大模块权限控制器App它的“英文名”是PermissionController,它是…

【安全工具+蜜罐】企业安全建设之蜜罐搭建与使用

一、基本介绍 HFish是一款基于Golang开发的跨平台多功能主动诱导型开源国产蜜罐框架系统,它从内网失陷检测、外网威胁感知、威胁情报生产三个场景出发,为用户提供可独立操作且实用的功能,通过安全、敏捷、可靠的中低交互蜜罐增加用户在失陷感知和威胁情报领域的能力,目前HF…

全局变量(PHP)

引子:从本章开始,正式进入Web开发篇,当然文章所写内容并非如何从零开始成为一名合格的开发者,而是站在安全的角度学开发。再说白点,就是开发者在开发业务系统时,哪处容易出现安全问题就学哪处。本章则从PHP基础之全局变量开始。免责声明:本文章仅用于交流学习,因文章内…

.NET 响应式编程 System.Reactive 系列文章(一):基础概念

在.NET中,响应式编程的核心库是System.Reactive,通常简称为Rx。本篇文章将介绍响应式编程的基础概念以及System.Reactive的核心组件,为后续深入学习奠定基础。.NET 响应式编程 System.Reactive 系列文章(一):基础概念 引言 在现代软件开发中,处理异步事件和数据流已经成…

【神兵利器】绕过EDR防病毒软件

免责声明 仅限用于技术研究和获得正式授权的攻防项目,请使用者遵守《中华人民共和国网络安全法》,切勿用于任何非法活动,若将工具做其他用途,由使用者承担全部法律及连带责任,作者及发布者不承担任何法律连带责任项目介绍 项目演示了使用Windows API函数(例如:VirtualAllo…

RAG项目推荐:bRAG-langchain-构建自己的 RAG 应用程序所需了解的一切

检索增强生成 (RAG) 项目项目链接:https://github.com/bRAGAI/bRAG-langchain/tree/mainbRAGAI 的官方平台即将上线。加入等待列表,成为早期使用者之一! 本仓库包含了对检索增强生成 (RAG) 在各种应用中的全面探索。 每个笔记本都提供了从入门级到高级实现的详细实践指南,包…