Je reçois cette erreur, j'ai essayé d'augmenter la mémoire sur les instances de cluster et dans les paramètres de l'exécuteur et du pilote sans succès.
17/05/07 23:17:07 ERROR TransportClient: Failed to send RPC 6465703946954088562 to ip-172-30-12-164.eu-central-1.compute.internal/172.30.12.164:34706: Java.nio.channels.ClosedChannelException
Quelqu'un at-il une idée de corriger cette erreur?
BTW j'utilise YARN comme gestionnaire de cluster
Merci d'avance
Enfin, j'ai résolu le problème. Cela était dû à un espace disque insuffisant. Une colonne de journaux hadoop montrait:
Hadoop YARN: 1/1 répertoires locaux sont mauvais:/var/lib/hadoop-yarn/cache/yarn/nm-local-dir; 1/1 journaux de journaux sont mauvais:/var/log/hadoop-yarn/containers
Je l'ai trouvé sur Google http://gethue.com/hadoop-yarn-11-local-dirs-are-bad-varlibhadoop-yarncacheyarnnm-local-dir-11-log-dirs-are-bad-varloghadoop- contenants de fil /
"Si vous obtenez cette erreur, libérez de l'espace disque!"
Pour voir cette erreur, je dois activer les journaux de fil dans EMR. Voir
http://docs.aws.Amazon.com/emr/latest/ManagementGuide/emr-web-interfaces.html
Pour avoir accès au port des journaux dans les instances du cluster ec2, j'ai changé les groupes de sécurité pour cela
c'est à dire.:
l'instance principale écoutait ici: 172.30.12.84:8088 Et l'instance principale ici: 172.30.12.21:8042
Enfin, j'ai résolu le problème en changeant dans etl.py le type d'instances par d'autres avec des disques plus gros:
maître: m3.2xlarge
core: c3.4xlarge