精通MongoDB聚合操作API:深入探索高级技巧与实践

在这里插入图片描述

MongoDB 聚合操作API提供了强大的数据处理能力,能够对数据进行筛选、变换、分组、统计等复杂操作。本文介绍了MongoDB的基本用法和高级用法,高级用法涵盖了setWindowFields、merge、facet、expr、accumulator窗口函数、结果合并、多面聚合、查询表达式在聚合中的使用以及自定义聚合操作,基本用法涵盖了match、project、group、sort、limit、skip、unwind、lookup、graphLookup、sample、bucket等。

一、基本用法:

1. $match:筛选文档

作用:根据指定的查询条件过滤输入文档。

语法

{ $match: { <query> } }

示例:筛选年龄大于等于30的用户文档:

db.users.aggregate([{ $match: { age: { $gte: 30 } } }
]);

2. $project:重塑文档

作用:指定输出文档的字段及内容,可以包括添加新字段、重命名字段、删除字段、计算表达式等。

语法

{ $project: { <field1>: <1 or 0>, <field2>: <1 or 0>, ... } }

示例:只输出用户姓名和年龄,不包含其他字段:

db.users.aggregate([{ $project: { name: 1, age: 1, _id: 0 } } // _id: 0 表示不包含_id字段
]);

3. $group:分组并计算

作用:根据指定的键(通常是一个字段)对文档进行分组,并对每个组应用聚合函数(如计数、求和、平均值等)。

语法

{ $group: { _id: <expression>, <field1>: { <accumulator1>: <expression1> }, ... } }

示例:按年龄分组,统计每个年龄段的用户数量:

db.users.aggregate([{ $group: { _id: "$age", count: { $sum: 1 } } }
]);

4. $sort:排序文档

作用:对输入文档进行排序。

语法

{ $sort: { <field1>: <1 or -1>, <field2>: <1 or -1>, ... } }

示例:按年龄降序排序用户:

db.users.aggregate([{ $sort: { age: -1 } }
]);

5. $limit:限制输出文档数量

作用:限制输出结果集的最大文档数。

语法

{ $limit: <number> }

示例:只返回前5个用户:

db.users.aggregate([{ $limit: 5 }
]);

6. $skip:跳过指定数量的文档

作用:跳过指定数量的文档,返回剩余文档。

语法

{ $skip: <number> }

示例:跳过前10个用户,返回剩下的用户:

db.users.aggregate([{ $skip: 10 }
]);

7. $unwind:展开数组字段

作用:将文档中某个数组字段的每个元素拆分为独立文档。

语法

{ $unwind: "<field>" }

示例:假设每个用户有多项技能,将技能数组拆分为独立文档:

db.users.aggregate([{ $unwind: "$skills" }
]);

8. $lookup:联接其他集合

作用:执行类似于关系型数据库的左外部联接操作,将来自不同集合的数据合并到一个结果集中。

语法

{ $lookup: {from: "<collection to join>",localField: "<field from the input documents>",foreignField: "<field from the documents of the 'from' collection>",as: "<output array field>"
} }

示例:假设有一个 orders 集合,联接用户和他们的订单:

db.users.aggregate([{ $lookup: {from: "orders",localField: "_id",foreignField: "userId",as: "orders"} }
]);

9. $graphLookup:深度查询关联文档

作用:在集合中递归地查询与当前文档相关的文档,构建层次结构或图状结构。

语法

{ $graphLookup: {from: "<collection to search>",startWith: "<expression>",connectFromField: "<field in the 'from' collection>",connectToField: "<field in the input documents>",as: "<output array field>",maxDepth: <number>,depthField: "<output field>",restrictSearchWithMatch: { <query> }
} }

示例:假设有一个 departments 集合,每个部门可能有上级部门,构建部门间的层级关系:

db.departments.aggregate([{ $graphLookup: {from: "departments",startWith: "$parentDepartmentId",connectFromField: "parentDepartmentId",connectToField: "_id",as: "ancestors",maxDepth: 10,depthField: "level"} }
]);

10. $sample:随机采样文档

作用:从输入文档中随机选取指定数量的文档。

语法

{ $sample: { size: <number> } }

示例:随机选取10个用户:

db.users.aggregate([{ $sample: { size: 10 } }
]);

11. $bucket:桶式分组

作用:根据指定的范围边界将数据划分为桶(区间),并对每个桶进行统计或聚合操作。

语法

{ $bucket: {groupBy: "<expression>",boundaries: [ <value1>, <value2>, ... ],default: <output document>,output: {<field1>: { <accumulator1>: <expression1> },<field2>: { <accumulator2>: <expression2> },...}
} }

示例:将用户年龄分为几个区间,并统计每个区间的用户数量:

db.users.aggregate([{ $bucket: {groupBy: "$age",boundaries: [ 18, 25, 30, 40, 50 ],default: "other",output: { count: { $sum: 1 } }} }
]);

12. $bucketAuto:自动桶式分组

作用:根据数据分布自动划分桶(区间),并进行统计或聚合操作。

语法

{ $bucketAuto: {groupBy: "<expression>",buckets: <number>,granularity: "<string>",output: {<field1>: { <accumulator1>: <expression1> },<field2>: { <accumulator2>: <expression2> },...}
} }

示例:自动将用户年龄分为若干区间,并统计每个区间的用户数量:

db.users.aggregate([{ $bucketAuto: {groupBy: "$age",buckets: 5,output: { count: { $sum: 1 } }} }
]);

以上就是MongoDB聚合操作API的全面解析以及示例,涵盖了主要的聚合阶段。实际使用时,可以根据具体需求组合这些阶段,构建复杂的数据分析管道。注意,聚合管道的执行顺序是从左到右,先执行 $match 这样的筛选阶段通常可以提高性能。

MongoDB 聚合框架除了提供基本的聚合操作外,还支持一些高级操作,用于处理更复杂的数据分析场景。以下是对这些高级聚合操作API的全面解析以及示例:

二、高级用法:

1. $setWindowFields:窗口函数

作用:在一组相邻文档(称为窗口)上执行计算,每个文档的结果依赖于窗口内的其他文档。支持多种窗口函数,如排名、累加、移动平均、分组统计等。

语法

{ $setWindowFields: {partitionBy: <expression>,sortBy: { <field1>: <1 or -1>, <field2>: <1 or -1>, ... },output: {<field1>: { <windowFunction1>: { ... } },<field2>: { <windowFunction2>: { ... } },...}
} }

示例:计算每个用户的连续订单编号、订单总金额及订单数量:

db.orders.aggregate([{ $setWindowFields: {partitionBy: "$userId",sortBy: { orderDate: 1 },output: {consecutiveOrderNumber: { $denseRank: {} },cumulativeTotalAmount: { $sum: "$amount", window: { documents: ["unbounded", "current"] } },orderCountInLast3Days: {$count: {},window: { range: [-3, "current"], unit: "day", timezone: "America/New_York" }}}} }
]);

2. $merge:合并结果到集合

作用:将聚合管道的结果合并到另一个集合中,支持插入、更新、替换等多种合并策略。

语法

{ $merge: {into: "<collection>",on: <field or array of fields>,whenMatched: "<mergeMode>",whenNotMatched: "<mergeMode>",let: { <var1>: <expression1>, <var2>: <expression2>, ... },pipeline: [ <stage1>, <stage2>, ... ]
} }

示例:将按年龄分组统计的用户数量结果合并到 userCounts 集合中,存在则更新,不存在则插入:

db.users.aggregate([{ $group: { _id: "$age", count: { $sum: 1 } } },{ $merge: {into: "userCounts",on: "_id",whenMatched: "replace",whenNotMatched: "insert"} }
]);

3. $facet:多面聚合

作用:在一个阶段内执行多个聚合管道,每个管道可以有不同的阶段和输出字段,最终结果将所有子聚合的输出合并到一个文档中。

语法

{ $facet: {<outputField1>: [ <stage1>, <stage2>, ... ],<outputField2>: [ <stage3>, <stage4>, ... ],...
} }

示例:同时计算年龄大于等于30和小于30的用户数量:

db.users.aggregate([{ $facet: {"over30": [{ $match: { age: { $gte: 30 } } },{ $count: "count" }],"under30": [{ $match: { age: { $lt: 30 } } },{ $count: "count" }]} }
]);

4. $expr:在聚合表达式中使用查询运算符

作用:在聚合操作(如 $match$project$redact 等)中使用查询表达式,允许在聚合管道中使用查询操作符。

语法

{ $match: { $expr: { <query operator expression> } } }

示例:查找年龄比其所在部门平均年龄大的用户:

db.users.aggregate([{$lookup: {from: "departments",localField: "departmentId",foreignField: "_id",as: "department"}},{$unwind: "$department"},{$match: {$expr: {$gt: ["$age", { $avg: "$department.ages" }]}}}
]);

5. $accumulator:自定义聚合操作

作用:允许定义自己的聚合操作(自定义累加器),用于在 $group 阶段执行特定的计算。

语法

db.createAggregateAccumulator("<accumulatorName>","<javascriptCode>",{ finalize: "<javascriptCode>", lang: "<language>" }
)// 在聚合管道中使用自定义累加器
{ $group: { _id: "$category", customValue: { $accumulator: "<accumulatorName>" } } }

示例:创建一个自定义累加器,计算文档数组中每个元素的平方和:

db.createAggregateAccumulator("squareSum","function(values) { return values.reduce((acc, val) => acc + Math.pow(val, 2), 0); }",{ lang: "js" }
)// 在聚合管道中使用自定义累加器
db.items.aggregate([{ $group: { _id: "$category", squareSum: { $accumulator: "squareSum", initialValue: [], accumulateArgs: ["$itemValues"] } } }
]);

以上就是MongoDB聚合高级操作API的全面解析以及示例,涵盖了窗口函数、结果合并、多面聚合、查询表达式在聚合中的使用以及自定义聚合操作。这些高级操作极大地扩展了聚合框架的功能,使其能够应对更复杂的数据分析需求。在实际使用时,应根据具体业务场景灵活运用这些高级操作,构建高效、精确的聚合管道。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/650364.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

IntelliJ IDEA - Lombok supports: OpenJDK javac, ECJ

问题描述 java: You arent using a compiler supported by lombok, so lombok will not work and has been disabled.Your processor is: com.sun.proxy.$Proxy26Lombok supports: OpenJDK javac, ECJ 解决方案 在 IDEA 设置中 File -> Settings 中找到配置如下&#xff1…

全志 T527 CAN 调试

一、设备树 二、内核 menuconfig 配置 SDK 根目录中执行./build.sh menuconfig 打开配置项界面;配置完成以后,./build.sh saveconfig保存配置项选择。 在buildroot中添加AWLINK工具:iproute2 、libsocketcan 、can‑utils 在根目录执行:./build.sh buildroot_menuconfig,…

DC-DC电源芯片规格书上的各种参数详解

1.输出电压精确度 输出电压的精确度,也被称为设定点精度,它描述了输出电压的允许误差。该参数通常是在常温,满载和额定输入电压的条件下测得的,它是这样定义的: 输出电压之所以产生误差,是因为元器件本身存在误差,特别是输出端的分压电阻,它将输出电压降低后比PWM比较…

python入门完结篇(6)

插入: 1.使用append的方法,使用append往列表末尾新增一个元素。此处的append的是搭配列表对象来使用的&#xff0c;而不是作为一个独立的函数. 而 type print input len自定义函数都是独立的函数&#xff0c;不用搭配任何对象. 而这种需要搭配对象&#xff08;变量&#xff09…

Linux开发板配置静态IP

1、查看网口信息&#xff0c;易知eth0无IP地址 ifconfig2、首先分配一个IP地址 sudo ifconfig eth0 192.168.5.8 up3、此时配置的IP地址只是临时的&#xff0c;当你reboot重启板子上电后&#xff0c;ip地址会消失&#xff0c;因此需要为板子配置静态ip&#xff0c;避免每次上…

Rust HTTP 客户端:易于使用、功能强大 | 开源日报 No.228

seanmonstar/reqwest Stars: 8.9k License: Apache-2.0 reqwest 是一个易于使用且功能强大的 Rust HTTP 客户端。 异步和阻塞客户端支持普通数据、JSON、urlencoded 和 multipart 数据格式可定制的重定向策略支持 HTTP 代理和系统原生 TLS 或 rustls 的 HTTPSCookie 存储功能…

【Java EE】CAS原理和实现以及JUC中常见的类的使用

˃͈꒵˂͈꒱ write in front ꒰˃͈꒵˂͈꒱ ʕ̯•͡˔•̯᷅ʔ大家好&#xff0c;我是xiaoxie.希望你看完之后,有不足之处请多多谅解&#xff0c;让我们一起共同进步૮₍❀ᴗ͈ . ᴗ͈ აxiaoxieʕ̯•͡˔•̯᷅ʔ—CSDN博客 本文由xiaoxieʕ̯•͡˔•̯᷅ʔ 原创 CSDN 如…

一、Django 初识

简介 Django 是一个用于构建 Web 应用程序的高级 Python Web 框架。 版本对应 不同版本的django框架是基于特定的不同的python版本开发的&#xff0c;所以不同版本的django框架要正常执行功能只能安装特定的python版本 Django安装 安装 Django # 全局安装 pip install dj…

1688拍立淘API接口技术实现与应用探索

随着移动互联网的快速发展和智能手机的普及&#xff0c;图像识别技术在电子商务领域的应用越来越广泛。1688拍立淘API接口正是基于图像识别技术&#xff0c;为商家和开发者提供了一种全新的商品搜索方式。通过上传商品图片&#xff0c;API接口能够快速识别图片中的商品&#xf…

大语言模型在研究领域的应用——信息检索中的大语言模型

信息检索中的大语言模型 大语言模型提升信息检索任务利用大语言模型进行信息检索大语言模型增强的信息检索模型. 检索增强的大语言模型输入优化策略.指令微调策略.预训练策略. 总结应用建议未来方向 大语言模型对于传统信息检索技术与应用范式带来了重要影响。这两者在技术路径…

8个拿来即用的Python自动化脚本!

每天你都可能会执行许多重复的任务&#xff0c;例如阅读新闻、发邮件、查看天气、清理文件夹等等&#xff0c;使用自动化脚本&#xff0c;就无需手动一次又一次地完成这些任务&#xff0c;非常方便。而在某种程度上&#xff0c;Python 就是自动化的代名词。 今天分享 8 个非常…

OS复习笔记ch4

引言 上一章&#xff0c;我们学习了进程的相关概念和知识&#xff0c;不知道小伙伴们的学习进度如何&#xff0c;没看的小伙伴记得去专栏看完哦。 线程从何而来 我们之前说过&#xff0c;进程是对程序运行过程的抽象&#xff0c;它的抽象程度是比较高的。 一个进程往往对应一…