Groupe ElasticSearch par plusieurs champs

Question

La seule chose proche que j'ai trouvée était: plusieurs regroupements dans Elasticsearch

Fondamentalement, j'essaie d'obtenir l'équivalent ES de la requête MySql suivante:

select gender, age_range, count(distinct profile_id) as count FROM TABLE group by age_range, gender

L'âge et le sexe en eux-mêmes étaient faciles à obtenir:

{ "query": { "match_all": {} }, "facets": { "ages": { "terms": { "field": "age_range", "size": 20 } }, "gender_by_age": { "terms": { "fields": [ "age_range", "gender" ] } } }, "size": 0 }

qui donne:

{ "ages": { "_type": "terms", "missing": 0, "total": 193961, "other": 0, "terms": [ { "term": 0, "count": 162643 }, { "term": 3, "count": 10683 }, { "term": 4, "count": 8931 }, { "term": 5, "count": 4690 }, { "term": 6, "count": 3647 }, { "term": 2, "count": 3247 }, { "term": 1, "count": 120 } ] }, "total_gender": { "_type": "terms", "missing": 0, "total": 193961, "other": 0, "terms": [ { "term": 1, "count": 94799 }, { "term": 2, "count": 62645 }, { "term": 0, "count": 36517 } ] } }

Mais maintenant, j'ai besoin de quelque chose qui ressemble à ceci:

[breakdown_gender] => Array ( [1] => Array ( [0] => 264 [1] => 1 [2] => 6 [3] => 67 [4] => 72 [5] => 40 [6] => 23 ) [2] => Array ( [0] => 153 [2] => 2 [3] => 21 [4] => 35 [5] => 22 [6] => 11 ) )

Veuillez noter que 0,1,2,3,4,5,6 sont des "mappages" pour les tranches d'âge, ils signifient donc quelque chose :) et pas seulement des chiffres. par exemple. Le sexe [1] (qui est "masculin") se décompose en tranche d'âge [0] (qui est "moins de 18 ans") avec un nombre de 246.

moliware · Accepted Answer

Comme vous n'avez que 2 champs, un moyen simple consiste à effectuer deux requêtes avec des facettes uniques. Pour les hommes:

{ "query" : { "term" : { "gender" : "Male" } }, "facets" : { "age_range" : { "terms" : { "field" : "age_range" } } } }

Et pour les femmes:

{ "query" : { "term" : { "gender" : "Female" } }, "facets" : { "age_range" : { "terms" : { "field" : "age_range" } } } }

Ou vous pouvez le faire en une seule requête avec un filtre à facettes (voir ce lien pour plus d'informations)

{ "query" : { "match_all": {} }, "facets" : { "age_range_male" : { "terms" : { "field" : "age_range" }, "facet_filter":{ "term": { "gender": "Male" } } }, "age_range_female" : { "terms" : { "field" : "age_range" }, "facet_filter":{ "term": { "gender": "Female" } } } } }

Mise à jour:

Comme les facettes sont sur le point d'être supprimées. C'est la solution avec des agrégations:

{ "query": { "match_all": {} }, "aggs": { "male": { "filter": { "term": { "gender": "Male" } }, "aggs": { "age_range": { "terms": { "field": "age_range" } } } }, "female": { "filter": { "term": { "gender": "Female" } }, "aggs": { "age_range": { "terms": { "field": "age_range" } } } } } }

Joe · Answer

À partir de la version 1.0 de ElasticSearch, la nouvelle agrégations API permet le regroupement par plusieurs champs, en utilisant sous-agrégations =. Supposons que vous souhaitiez regrouper par champs field1, field2 et field3:

{ "aggs": { "agg1": { "terms": { "field": "field1" }, "aggs": { "agg2": { "terms": { "field": "field2" }, "aggs": { "agg3": { "terms": { "field": "field3" } } } } } } } }

Bien sûr, cela peut continuer pour autant de domaines que vous le souhaitez.

Mise à jour:
Pour être complet, voici à quoi ressemble la sortie de la requête ci-dessus. Vous trouverez également ci-dessous python pour générer la requête d'agrégation et aplatir le résultat dans une liste de dictionnaires.

{ "aggregations": { "agg1": { "buckets": [{ "doc_count": <count>, "key": <value of field1>, "agg2": { "buckets": [{ "doc_count": <count>, "key": <value of field2>, "agg3": { "buckets": [{ "doc_count": <count>, "key": <value of field3> }, { "doc_count": <count>, "key": <value of field3> }, ... ] }, { "doc_count": <count>, "key": <value of field2>, "agg3": { "buckets": [{ "doc_count": <count>, "key": <value of field3> }, { "doc_count": <count>, "key": <value of field3> }, ... ] }, ... ] }, { "doc_count": <count>, "key": <value of field1>, "agg2": { "buckets": [{ "doc_count": <count>, "key": <value of field2>, "agg3": { "buckets": [{ "doc_count": <count>, "key": <value of field3> }, { "doc_count": <count>, "key": <value of field3> }, ... ] }, { "doc_count": <count>, "key": <value of field2>, "agg3": { "buckets": [{ "doc_count": <count>, "key": <value of field3> }, { "doc_count": <count>, "key": <value of field3> }, ... ] }, ... ] }, ... ] } } }

Le code python effectue le regroupement en fonction de la liste des champs. Si vous spécifiez include_missing=True, il inclut également des combinaisons de valeurs où certains champs sont manquants (vous n'en avez pas besoin si vous avez la version 2.0 d'Elasticsearch grâce à this )

def group_by(es, fields, include_missing): current_level_terms = {'terms': {'field': fields[0]}} agg_spec = {fields[0]: current_level_terms} if include_missing: current_level_missing = {'missing': {'field': fields[0]}} agg_spec[fields[0] + '_missing'] = current_level_missing for field in fields[1:]: next_level_terms = {'terms': {'field': field}} current_level_terms['aggs'] = { field: next_level_terms, } if include_missing: next_level_missing = {'missing': {'field': field}} current_level_terms['aggs'][field + '_missing'] = next_level_missing current_level_missing['aggs'] = { field: next_level_terms, field + '_missing': next_level_missing, } current_level_missing = next_level_missing current_level_terms = next_level_terms agg_result = es.search(body={'aggs': agg_spec})['aggregations'] return get_docs_from_agg_result(agg_result, fields, include_missing) def get_docs_from_agg_result(agg_result, fields, include_missing): current_field = fields[0] buckets = agg_result[current_field]['buckets'] if include_missing: buckets.append(agg_result[(current_field + '_missing')]) if len(fields) == 1: return [ { current_field: bucket.get('key'), 'doc_count': bucket['doc_count'], } for bucket in buckets if bucket['doc_count'] > 0 ] result = [] for bucket in buckets: records = get_docs_from_agg_result(bucket, fields[1:], include_missing) value = bucket.get('key') for record in records: record[current_field] = value result.extend(records) return result