les valeurs du groupe mongodb par plusieurs champs

Question

Par exemple, j'ai ces documents:

{ "addr": "address1", "book": "book1" }, { "addr": "address2", "book": "book1" }, { "addr": "address1", "book": "book5" }, { "addr": "address3", "book": "book9" }, { "addr": "address2", "book": "book5" }, { "addr": "address2", "book": "book1" }, { "addr": "address1", "book": "book1" }, { "addr": "address15", "book": "book1" }, { "addr": "address9", "book": "book99" }, { "addr": "address90", "book": "book33" }, { "addr": "address4", "book": "book3" }, { "addr": "address5", "book": "book1" }, { "addr": "address77", "book": "book11" }, { "addr": "address1", "book": "book1" }

Neil Lunn · Accepted Answer

Résumé TLDR

Dans les versions modernes de MongoDB, vous pouvez forcer ceci brutalement avec $slice juste à côté du résultat de l'agrégation de base. Pour des résultats "volumineux", exécutez des requêtes parallèles pour chaque groupe (une liste de démonstration se trouve à la fin de la réponse) ou attendez SERVEUR-9377 à résoudre, ce qui autoriserait une "limite" à le nombre d'éléments à _$Push_ dans un tableau.

_db.books.aggregate([ { "$group": { "_id": { "addr": "$addr", "book": "$book" }, "bookCount": { "$sum": 1 } }}, { "$group": { "_id": "$_id.addr", "books": { "$Push": { "book": "$_id.book", "count": "$bookCount" }, }, "count": { "$sum": "$bookCount" } }}, { "$sort": { "count": -1 } }, { "$limit": 2 }, { "$project": { "books": { "$slice": [ "$books", 2 ] }, "count": 1 }} ]) _

Aperçu de MongoDB 3.6

Pas encore résolu SERVEUR-9377 , mais dans cette version $lookup autorise une nouvelle option "non corrélée" qui prend une expression _"pipeline"_ en tant que argument au lieu des options _"localFields"_ et _"foreignFields"_. Cela permet ensuite une "auto-jointure" avec une autre expression de pipeline, dans laquelle nous pouvons appliquer $limit afin de renvoyer les résultats "top-n".

_db.books.aggregate([ { "$group": { "_id": "$addr", "count": { "$sum": 1 } }}, { "$sort": { "count": -1 } }, { "$limit": 2 }, { "$lookup": { "from": "books", "let": { "addr": "$_id" }, "pipeline": [ { "$match": { "$expr": { "$eq": [ "$addr", "$$addr"] } }}, { "$group": { "_id": "$book", "count": { "$sum": 1 } }}, { "$sort": { "count": -1 } }, { "$limit": 2 } ], "as": "books" }} ]) _

L’autre ajout ici est bien sûr la possibilité d’interpoler la variable avec _$expr_ en utilisant $match pour sélectionner les éléments correspondants dans la "jointure", mais le principe général est un " pipeline dans un pipeline "où le contenu interne peut être filtré par correspondances provenant du parent. Comme ils sont tous deux des "pipelines", nous pouvons $limit chaque résultat séparément.

Ce serait la deuxième meilleure option pour exécuter des requêtes parallèles, et ce serait mieux si les $match étaient autorisés et pouvaient utiliser un index dans le traitement du "sous-pipeline". Donc, qui n’utilise pas la "limite à _$Push_" comme le demande le problème cité en référence, il fournit en réalité quelque chose qui devrait fonctionner mieux.

Contenu original

Vous semblez avoir trébuché sur le plus gros problème "N". D'une certaine manière, votre problème est assez facile à résoudre, mais pas avec la limitation exacte que vous demandez:

_db.books.aggregate([ { "$group": { "_id": { "addr": "$addr", "book": "$book" }, "bookCount": { "$sum": 1 } }}, { "$group": { "_id": "$_id.addr", "books": { "$Push": { "book": "$_id.book", "count": "$bookCount" }, }, "count": { "$sum": "$bookCount" } }}, { "$sort": { "count": -1 } }, { "$limit": 2 } ]) _

Maintenant, cela vous donnera un résultat comme celui-ci:

_{ "result" : [ { "_id" : "address1", "books" : [ { "book" : "book4", "count" : 1 }, { "book" : "book5", "count" : 1 }, { "book" : "book1", "count" : 3 } ], "count" : 5 }, { "_id" : "address2", "books" : [ { "book" : "book5", "count" : 1 }, { "book" : "book1", "count" : 2 } ], "count" : 3 } ], "ok" : 1 } _

Cela diffère donc de ce que vous demandez en ce que, même si nous obtenons les meilleurs résultats pour les valeurs d'adresse, la sélection "de livres" sous-jacente ne se limite pas à un nombre requis de résultats.

Cela s'avère très difficile à faire, mais cela peut être fait bien que la complexité augmente simplement avec le nombre d'éléments que vous devez faire correspondre. Pour rester simple, nous pouvons garder ceci à 2 matchs au maximum:

_db.books.aggregate([ { "$group": { "_id": { "addr": "$addr", "book": "$book" }, "bookCount": { "$sum": 1 } }}, { "$group": { "_id": "$_id.addr", "books": { "$Push": { "book": "$_id.book", "count": "$bookCount" }, }, "count": { "$sum": "$bookCount" } }}, { "$sort": { "count": -1 } }, { "$limit": 2 }, { "$unwind": "$books" }, { "$sort": { "count": 1, "books.count": -1 } }, { "$group": { "_id": "$_id", "books": { "$Push": "$books" }, "count": { "$first": "$count" } }}, { "$project": { "_id": { "_id": "$_id", "books": "$books", "count": "$count" }, "newBooks": "$books" }}, { "$unwind": "$newBooks" }, { "$group": { "_id": "$_id", "num1": { "$first": "$newBooks" } }}, { "$project": { "_id": "$_id", "newBooks": "$_id.books", "num1": 1 }}, { "$unwind": "$newBooks" }, { "$project": { "_id": "$_id", "num1": 1, "newBooks": 1, "seen": { "$eq": [ "$num1", "$newBooks" ]} }}, { "$match": { "seen": false } }, { "$group":{ "_id": "$_id._id", "num1": { "$first": "$num1" }, "num2": { "$first": "$newBooks" }, "count": { "$first": "$_id.count" } }}, { "$project": { "num1": 1, "num2": 1, "count": 1, "type": { "$cond": [ 1, [true,false],0 ] } }}, { "$unwind": "$type" }, { "$project": { "books": { "$cond": [ "$type", "$num1", "$num2" ]}, "count": 1 }}, { "$group": { "_id": "$_id", "count": { "$first": "$count" }, "books": { "$Push": "$books" } }}, { "$sort": { "count": -1 } } ]) _

Cela vous donnera donc les deux premiers "livres" des deux premières entrées "adresse".

Mais pour mon argent, restez avec la première forme et ensuite simplement "découpez" les éléments du tableau qui sont retournés pour prendre les premiers "N" éléments.

Code de démonstration

Le code de démonstration convient aux versions LTS actuelles de NodeJS à partir des versions v8.x et v10.x. C'est principalement pour la syntaxe _async/await_, mais rien dans le flux général ne comporte une telle restriction, et s'adapte avec peu d'altération aux promesses en clair ou même en arrière à l'implémentation de rappel en clair.

index.js

_const { MongoClient } = require('mongodb'); const fs = require('mz/fs'); const uri = 'mongodb://localhost:27017'; const log = data => console.log(JSON.stringify(data, undefined, 2)); (async function() { try { const client = await MongoClient.connect(uri); const db = client.db('bookDemo'); const books = db.collection('books'); let { version } = await db.command({ buildInfo: 1 }); version = parseFloat(version.match(new RegExp(/(?:(?!-).)*/))[0]); // Clear and load books await books.deleteMany({}); await books.insertMany( (await fs.readFile('books.json')) .toString() .replace(/
$/,"") .split("
") .map(JSON.parse) ); if ( version >= 3.6 ) { // Non-correlated pipeline with limits let result = await books.aggregate([ { "$group": { "_id": "$addr", "count": { "$sum": 1 } }}, { "$sort": { "count": -1 } }, { "$limit": 2 }, { "$lookup": { "from": "books", "as": "books", "let": { "addr": "$_id" }, "pipeline": [ { "$match": { "$expr": { "$eq": [ "$addr", "$$addr" ] } }}, { "$group": { "_id": "$book", "count": { "$sum": 1 }, }}, { "$sort": { "count": -1 } }, { "$limit": 2 } ] }} ]).toArray(); log({ result }); } // Serial result procesing with parallel fetch // First get top addr items let topaddr = await books.aggregate([ { "$group": { "_id": "$addr", "count": { "$sum": 1 } }}, { "$sort": { "count": -1 } }, { "$limit": 2 } ]).toArray(); // Run parallel top books for each addr let topbooks = await Promise.all( topaddr.map(({ _id: addr }) => books.aggregate([ { "$match": { addr } }, { "$group": { "_id": "$book", "count": { "$sum": 1 } }}, { "$sort": { "count": -1 } }, { "$limit": 2 } ]).toArray() ) ); // Merge output topaddr = topaddr.map((d,i) => ({ ...d, books: topbooks[i] })); log({ topaddr }); client.close(); } catch(e) { console.error(e) } finally { process.exit() } })() _

books.json

_{ "addr": "address1", "book": "book1" } { "addr": "address2", "book": "book1" } { "addr": "address1", "book": "book5" } { "addr": "address3", "book": "book9" } { "addr": "address2", "book": "book5" } { "addr": "address2", "book": "book1" } { "addr": "address1", "book": "book1" } { "addr": "address15", "book": "book1" } { "addr": "address9", "book": "book99" } { "addr": "address90", "book": "book33" } { "addr": "address4", "book": "book3" } { "addr": "address5", "book": "book1" } { "addr": "address77", "book": "book11" } { "addr": "address1", "book": "book1" } _

Sikorski · Answer

Utilisation de la fonction d'agrégat comme ci-dessous:

[ {$group: {_id : {book : '$book',address:'$addr'}, total:{$sum :1}}}, {$project : {book : '$_id.book', address : '$_id.address', total : '$total', _id : 0}} ]

cela vous donnera un résultat comme suit:

 { "total" : 1, "book" : "book33", "address" : "address90" }, { "total" : 1, "book" : "book5", "address" : "address1" }, { "total" : 1, "book" : "book99", "address" : "address9" }, { "total" : 1, "book" : "book1", "address" : "address5" }, { "total" : 1, "book" : "book5", "address" : "address2" }, { "total" : 1, "book" : "book3", "address" : "address4" }, { "total" : 1, "book" : "book11", "address" : "address77" }, { "total" : 1, "book" : "book9", "address" : "address3" }, { "total" : 1, "book" : "book1", "address" : "address15" }, { "total" : 2, "book" : "book1", "address" : "address2" }, { "total" : 3, "book" : "book1", "address" : "address1" }

Je n’ai pas tout à fait compris le format de résultat attendu, alors n'hésitez pas à le modifier en un de ceux dont vous avez besoin.

Jitendra · Answer

La requête ci-dessous donnera exactement le même résultat que celui indiqué dans la réponse souhaitée:

db.books.aggregate([ { $group: { _id: { addresses: "$addr", books: "$book" }, num: { $sum :1 } } }, { $group: { _id: "$_id.addresses", bookCounts: { $Push: { bookName: "$_id.books",count: "$num" } } } }, { $project: { _id: 1, bookCounts:1, "totalBookAtAddress": { "$sum": "$bookCounts.count" } } } ])

La réponse sera comme ci-dessous:

/* 1 */ { "_id" : "address4", "bookCounts" : [ { "bookName" : "book3", "count" : 1 } ], "totalBookAtAddress" : 1 }, /* 2 */ { "_id" : "address90", "bookCounts" : [ { "bookName" : "book33", "count" : 1 } ], "totalBookAtAddress" : 1 }, /* 3 */ { "_id" : "address15", "bookCounts" : [ { "bookName" : "book1", "count" : 1 } ], "totalBookAtAddress" : 1 }, /* 4 */ { "_id" : "address3", "bookCounts" : [ { "bookName" : "book9", "count" : 1 } ], "totalBookAtAddress" : 1 }, /* 5 */ { "_id" : "address5", "bookCounts" : [ { "bookName" : "book1", "count" : 1 } ], "totalBookAtAddress" : 1 }, /* 6 */ { "_id" : "address1", "bookCounts" : [ { "bookName" : "book1", "count" : 3 }, { "bookName" : "book5", "count" : 1 } ], "totalBookAtAddress" : 4 }, /* 7 */ { "_id" : "address2", "bookCounts" : [ { "bookName" : "book1", "count" : 2 }, { "bookName" : "book5", "count" : 1 } ], "totalBookAtAddress" : 3 }, /* 8 */ { "_id" : "address77", "bookCounts" : [ { "bookName" : "book11", "count" : 1 } ], "totalBookAtAddress" : 1 }, /* 9 */ { "_id" : "address9", "bookCounts" : [ { "bookName" : "book99", "count" : 1 } ], "totalBookAtAddress" : 1 }