Comment vérifier l’égalité avec Spark Dataframe sans requête SQL?)

Question

Je veux sélectionner une colonne qui équivaut à une certaine valeur. Je le fais dans scala) et j'ai un peu de difficulté.

Heres mon code

df.select(df("state")==="TX").show()

cela retourne la colonne d'état avec des valeurs booléennes au lieu de simplement TX

J'ai aussi essayé

df.select(df("state")=="TX").show()

mais cela ne fonctionne pas non plus.

user3487888 · Accepted Answer

J'ai eu le même problème, et la syntaxe suivante a fonctionné pour moi:

df.filter(df("state")==="TX").show()

J'utilise Spark 1.6.

Jegan · Answer

Il y a une autre option simple comme sql. Avec Spark 1.6 ci-dessous devrait également fonctionner.

df.filter("state = 'TX'")

C'est une nouvelle façon de spécifier SQL comme des filtres. Pour une liste complète des opérateurs pris en charge, consultez this class.

Justin Pihony · Answer

Vous devriez utiliser where, select est une projection qui renvoie le résultat de l'instruction, ce qui explique pourquoi vous obtenez des valeurs booléennes. where est un filtre qui conserve la structure du cadre de données, mais ne conserve que les données où le filtre fonctionne.

Cependant, dans la même ligne, vous pouvez écrire cela de 3 manières différentes selon la documentation.

// The following are equivalent: peopleDf.filter($"age" > 15) peopleDf.where($"age" > 15) peopleDf($"age" > 15)

dman · Answer

Pour obtenir la négation, faites ceci ...

df.filter(not( ..expression.. ))

par exemple

df.filter(not($"state" === "TX"))

Srini · Answer

df.filter($"state" like "T%%") pour le filtrage

df.filter($"state" === "TX") ou df.filter("state = 'TX'") pour l'égalité

Phani · Answer

Nous pouvons écrire plusieurs conditions Filter/where dans Dataframe.

Par exemple:

table1_df .filter($"Col_1_name" === "buddy") // check for equal to string .filter($"Col_2_name" === "A") .filter(not($"Col_2_name".contains(" .sql"))) // filter a string which is not relevent .filter("Col_2_name is not null") // no null filter .take(5).foreach(println)

Farshad Javadi · Answer

Travaillé sur Spark V2. *

import sqlContext.implicits._ df.filter($"state" === "TX")

si besoin d'être comparé à une variable (par exemple, var):

import sqlContext.implicits._ df.filter($"state" === var)

Remarque : import sqlContext.implicits._

Ram Ghadiyaram · Answer

Voici l'exemple complet utilisant spark2.2 + prenant des données en json ...

val myjson = "[{\"name\":\"Alabama\",\"abbreviation\":\"AL\"},{\"name\":\"Alaska\",\"abbreviation\":\"AK\"},{\"name\":\"American Samoa\",\"abbreviation\":\"AS\"},{\"name\":\"Arizona\",\"abbreviation\":\"AZ\"},{\"name\":\"Arkansas\",\"abbreviation\":\"AR\"},{\"name\":\"California\",\"abbreviation\":\"CA\"},{\"name\":\"Colorado\",\"abbreviation\":\"CO\"},{\"name\":\"Connecticut\",\"abbreviation\":\"CT\"},{\"name\":\"Delaware\",\"abbreviation\":\"DE\"},{\"name\":\"District Of Columbia\",\"abbreviation\":\"DC\"},{\"name\":\"Federated States Of Micronesia\",\"abbreviation\":\"FM\"},{\"name\":\"Florida\",\"abbreviation\":\"FL\"},{\"name\":\"Georgia\",\"abbreviation\":\"GA\"},{\"name\":\"Guam\",\"abbreviation\":\"GU\"},{\"name\":\"Hawaii\",\"abbreviation\":\"HI\"},{\"name\":\"Idaho\",\"abbreviation\":\"ID\"},{\"name\":\"Illinois\",\"abbreviation\":\"IL\"},{\"name\":\"Indiana\",\"abbreviation\":\"IN\"},{\"name\":\"Iowa\",\"abbreviation\":\"IA\"},{\"name\":\"Kansas\",\"abbreviation\":\"KS\"},{\"name\":\"Kentucky\",\"abbreviation\":\"KY\"},{\"name\":\"Louisiana\",\"abbreviation\":\"LA\"},{\"name\":\"Maine\",\"abbreviation\":\"ME\"},{\"name\":\"Marshall Islands\",\"abbreviation\":\"MH\"},{\"name\":\"Maryland\",\"abbreviation\":\"MD\"},{\"name\":\"Massachusetts\",\"abbreviation\":\"MA\"},{\"name\":\"Michigan\",\"abbreviation\":\"MI\"},{\"name\":\"Minnesota\",\"abbreviation\":\"MN\"},{\"name\":\"Mississippi\",\"abbreviation\":\"MS\"},{\"name\":\"Missouri\",\"abbreviation\":\"MO\"},{\"name\":\"Montana\",\"abbreviation\":\"MT\"},{\"name\":\"Nebraska\",\"abbreviation\":\"NE\"},{\"name\":\"Nevada\",\"abbreviation\":\"NV\"},{\"name\":\"New Hampshire\",\"abbreviation\":\"NH\"},{\"name\":\"New Jersey\",\"abbreviation\":\"NJ\"},{\"name\":\"New Mexico\",\"abbreviation\":\"NM\"},{\"name\":\"New York\",\"abbreviation\":\"NY\"},{\"name\":\"North Carolina\",\"abbreviation\":\"NC\"},{\"name\":\"North Dakota\",\"abbreviation\":\"ND\"},{\"name\":\"Northern Mariana Islands\",\"abbreviation\":\"MP\"},{\"name\":\"Ohio\",\"abbreviation\":\"OH\"},{\"name\":\"Oklahoma\",\"abbreviation\":\"OK\"},{\"name\":\"Oregon\",\"abbreviation\":\"OR\"},{\"name\":\"Palau\",\"abbreviation\":\"PW\"},{\"name\":\"Pennsylvania\",\"abbreviation\":\"PA\"},{\"name\":\"Puerto Rico\",\"abbreviation\":\"PR\"},{\"name\":\"Rhode Island\",\"abbreviation\":\"RI\"},{\"name\":\"South Carolina\",\"abbreviation\":\"SC\"},{\"name\":\"South Dakota\",\"abbreviation\":\"SD\"},{\"name\":\"Tennessee\",\"abbreviation\":\"TN\"},{\"name\":\"Texas\",\"abbreviation\":\"TX\"},{\"name\":\"Utah\",\"abbreviation\":\"UT\"},{\"name\":\"Vermont\",\"abbreviation\":\"VT\"},{\"name\":\"Virgin Islands\",\"abbreviation\":\"VI\"},{\"name\":\"Virginia\",\"abbreviation\":\"VA\"},{\"name\":\"Washington\",\"abbreviation\":\"WA\"},{\"name\":\"West Virginia\",\"abbreviation\":\"WV\"},{\"name\":\"Wisconsin\",\"abbreviation\":\"WI\"},{\"name\":\"Wyoming\",\"abbreviation\":\"WY\"}]" import spark.implicits._ val df = spark.read.json(Seq(myjson).toDS) df.show import spark.implicits._ val df = spark.read.json(Seq(myjson).toDS) df.show scala> df.show +------------+--------------------+ |abbreviation| name| +------------+--------------------+ | AL| Alabama| | AK| Alaska| | AS| American Samoa| | AZ| Arizona| | AR| Arkansas| | CA| California| | CO| Colorado| | CT| Connecticut| | DE| Delaware| | DC|District Of Columbia| | FM|Federated States ...| | FL| Florida| | GA| Georgia| | GU| Guam| | HI| Hawaii| | ID| Idaho| | IL| Illinois| | IN| Indiana| | IA| Iowa| | KS| Kansas| +------------+--------------------+ // equals matching scala> df.filter(df("abbreviation") === "TX").show +------------+-----+ |abbreviation| name| +------------+-----+ | TX|Texas| +------------+-----+ // or using lit scala> df.filter(df("abbreviation") === lit("TX")).show +------------+-----+ |abbreviation| name| +------------+-----+ | TX|Texas| +------------+-----+ //not expression scala> df.filter(not(df("abbreviation") === "TX")).show +------------+--------------------+ |abbreviation| name| +------------+--------------------+ | AL| Alabama| | AK| Alaska| | AS| American Samoa| | AZ| Arizona| | AR| Arkansas| | CA| California| | CO| Colorado| | CT| Connecticut| | DE| Delaware| | DC|District Of Columbia| | FM|Federated States ...| | FL| Florida| | GA| Georgia| | GU| Guam| | HI| Hawaii| | ID| Idaho| | IL| Illinois| | IN| Indiana| | IA| Iowa| | KS| Kansas| +------------+--------------------+ only showing top 20 rows