开源项目推荐
Dstack
Dstack 是一个开源的 AI 计算管理平台,旨在简化 AI 任务的部署和管理。它支持本地和云端运行 AI 工作负载,并提供自动化的 GPU 资源调度,使开发者能够更高效地利用计算资源。Dstack 兼容 K8s,可以无缝集成到现有的基础设施中,适用于 AI 模型训练、推理和 MLOps 工作流。
SkyPilot
SkyPilot 是一个开源的云端任务调度和优化平台,旨在帮助用户高效地在多云环境中运行 AI 训练和计算任务。它支持自动选择最优的云提供商、智能分配计算资源,并提供低成本、高性能的计算优化方案。SkyPilot 适用于 AI 研究、分布式计算和大规模云端任务管理,可无缝集成 K8s 和多种云平台。
Kaito
Kaito 是一个基于 AI 的搜索引擎,旨在帮助用户更高效地检索和组织信息。它结合了大模型技术与搜索能力,使用户能够从多个数据源(如 GitHub、论文、网站等)中提取关键信息,提升研究和开发效率。Kaito 适用于开发者、研究人员和知识工作者,提供更智能的搜索体验。
RagApp
RagApp 是一个开源的 RAG(检索增强生成)应用开发框架,旨在帮助用户构建基于大语言模型的智能问答和知识检索系统。它支持从多种数据源(如文档、数据库、API)提取信息,并结合 LLM 进行智能回答,使 AI 更精准地提供基于上下文的响应。RagApp 适用于企业知识管理、聊天机器人和智能搜索等应用场景。
文章推荐
在 Kubernetes 中高效管理 AI/ML 工作负载的最佳实践
本文介绍了在 K8s 上高效运行 AI/ML 工作负载的最佳实践。首先,合理管理计算资源至关重要,建议使用 K8s 设备插件(如 NVIDIA 插件)优化 GPU 分配,并配置 CPU 和内存请求以避免资源争用。通过节点选择、亲和性规则和自动扩展机制,可以提高任务调度的灵活性和效率。此外,为了确保多租户环境的安全性,建议利用命名空间和网络策略进行隔离,并通过 RBAC 访问控制,防止未经授权的访问。
同时,监控和日志管理是保障系统稳定性的关键。集成 Prometheus 进行实时资源监控,有助于优化性能并及时发现潜在瓶颈,而集中化日志管理系统能够提升故障排查效率,确保 AI 任务的顺畅执行。通过这些实践,企业可以更高效地管理 K8s 上的 AI 训练和推理任务,提升计算资源的利用率和系统的可靠性。
K8s 1.31 中云控制器管理器的初始化挑战与解决方案
本文介绍了 K8s 1.31 版本中针对云提供商集成架构的重大变更。官方在此次更新中移除了内置的云提供商相关代码,转而采用云控制器管理器(Cloud Controller Manager,CCM)来处理云平台特定的控制逻辑。这一迁移提升了 Kubernetes 的可扩展性和云平台兼容性,但也引发了一个关键的“先有鸡还是先有蛋”问题:当 kubelet 启动并向 API 服务器注册节点时,节点仍缺少关键的云提供商信息(如地址和区域标签),而这些信息依赖 CCM 来填充,而 CCM 又需要节点完成初始化才能生效。这种相互依赖可能导致节点就绪的延迟,并带来潜在的故障风险。
为解决这一问题,集群管理员和安装工具(如 kOps 或 Cluster API)需要采取额外措施,确保 CCM 在集群启动过程中能够正确配置并与其他组件协调运行。通过优化初始化流程和资源调度策略,可以减少 K8s 1.31 迁移带来的影响,提升集群的稳定性和可管理性。
vivo 大规模容器集群运维平台实践
vivo互联网服务器团队针对大规模容器集群运维难题,自主研发了北斗运维管理平台,通过白屏化、自动化手段解决了初期黑屏操作复杂、人工巡检低效、多集群管理困难等挑战。该平台构建了节点扩缩容工具实现全流程自动化(20台扩容时间从60分钟缩短至10分钟),开发kube-doctor组件支持集群资源/节点/自定义巡检,并整合资源管理、事件中心、监控告警等核心功能,形成覆盖集群安装、组件管理、故障定位的运维体系,成功支撑 20+ 生产集群、数万节点的高效运维,累计执行 5000+ 扩缩容任务,显著提升运维标准化程度与系统稳定性。
云原生动态
Istio 1.25.0 正式发布:全面增强 Ambient 模式与流量管理
Istio 1.25 版本引入了多个重要更新和改进,增强了可观测性、安全性和可扩展性。新版本优化了 Istio 的流量管理,改进了 Sidecar 的资源使用效率,并增强了对 Kubernetes Gateway API 的支持。此外,Istio 1.25 进一步提升了身份验证和访问控制机制,增加了更多的策略配置选项,提高了整体安全性。该版本还改进了可观测性,增强了日志和指标收集能力,帮助运维人员更好地监控和管理服务网格。
Dapr v1.15 正式发布
Dapr 1.15.0 版本正式发布。此版本引入了多项新特性和改进,包括将调度器服务(Scheduler service)提升为稳定版。在此版本中,调度器服务默认用于管理 Actor 提醒(Actor reminders),取代了之前的放置服务(Placement service)。
升级至 Dapr 1.15 后,现有的 Actor 提醒将自动从放置服务迁移至调度器服务。此外,Dapr 1.15 还包含其他增强功能和修复,旨在提升分布式应用的开发体验和系统性能。
关于KubeSphere
KubeSphere (https://kubesphere.io)是在 Kubernetes 之上构建的开源容器平台,提供全栈的 IT 自动化运维的能力,简化企业的 DevOps 工作流。
KubeSphere 已被 Aqara 智能家居、本来生活、东方通信、微宏科技、东软、华云、新浪、三一重工、华夏银行、四川航空、国药集团、微众银行、紫金保险、去哪儿网、中通、中国人民银行、中国银行、中国人保寿险、中国太平保险、中国移动、中国联通、中国电信、天翼云、中移金科、Radore、ZaloPay 等海内外数万家企业采用。KubeSphere 提供了开发者友好的向导式操作界面和丰富的企业级功能,包括 Kubernetes 多云与多集群管理、DevOps (CI/CD)、应用生命周期管理、边缘计算、微服务治理 (Service Mesh)、多租户管理、可观测性、存储与网络管理、GPU support 等功能,帮助企业快速构建一个强大和功能丰富的容器云平台。