J'essaie d'installer une seule installation de nœuds d'Hadoop sur Ubuntu. J'ai commencé à suivre les Instructions sur le Hadoop 2.3 Docs .
Mais il semble manquer quelque chose de très simple.
Tout d'abord, il dit de
Pour obtenir une distribution Hadoop, téléchargez une version stable récente de l'un des miroirs de téléchargement Apache.
Puis,
Déballez la distribution téléchargée Hadoop. Dans la distribution, modifiez le fichier Conf/Hadoop-env.sh pour définir au moins Java_Home pour être la racine de votre Java Installation.
Cependant, je ne peux pas sembler trouver le répertoire conf
.
J'ai téléchargé une version de 2.3 à n des miroirs . Puis déballé la tagball, un ls
des rendements intérieurs:
$ ls
bin etc include lib libexec LICENSE.txt NOTICE.txt README.txt sbin share
J'ai pu trouver le fichier qu'ils référencent, tout simplement pas dans un répertoire conf
:
$ find . -name hadoop-env.sh
./etc/hadoop/hadoop-env.sh
Est-ce que je manque quelque chose ou je saisi le mauvais paquet? Ou les documents sont-ils juste obsolètes?
Si tel est le cas, quelqu'un sache où sont d'autres documents à jour à jour?
J'essaie d'installer un Hadoop en mode pseudo-distribué, dans le même problème.
En suivant le livre Hadoop the définitif guide (troisième édition), à la page 618, il est indiqué:
In Hadoop 2.0 and later, MapReduce runs on YARN and there is an additional con-
figuration file called yarn-site.xml. All the configuration files should go in the
etc/hadoop subdirectory
J'espère que cela confirme que etc/hadoop
est le bon endroit.
Je pense que les docs doivent être mis à jour. Bien que la structure de répertoires ait changé, les noms de fichiers pour des fichiers importants tels que Hadoop-env.sh, Core-Ste.xml et HDFS-Site.xml n'ont pas changé. Vous pouvez trouver le lien suivant utile pour commencer.
http://codesfusion.blogspot.com/2013/10/setup-hadoop2x-220-on-ubuntu.html
À hadoop1,
{$HADOOP_HOME}/conf/
Dans hadoop2,
{$HADOOP_HOME}/etc/hadoop
Il suffit d'ajouter une note sur le blog post http://codesfusion.blogspot.com/2013/10/setup-hadoop2x-220-on-ubuntu.html . Le blogpostost est fantastique et très utile. C'est comme ça que j'ai commencé. Un aspect que j'ai pris un peu de temps pour comprendre est que ce blog semble utiliser une manière simplifiée de fournir une configuration dans les fichiers de Hadoop Conf, tels que "Conf/Core-Site.xml", HDFS-SITE.XML, etc ... comme suit
<!--fs.default.name is the name node URI -->
<configuration>
fs.default.name
hdfs://localhost:9000
</configuration>
Selon les documents officiels, il existe une manière plus rigoureuse - ce qui serait utile lorsque vous avez plus d'une propriété consiste à l'ajouter comme suit (veuillez noter - la description est facultative :-))
<configuration>
<property>
<name> fs.default.name </name>
<value>hdfs://localhost:9000 </value>
<description>the name node URI </description>
</property>
<!--Add more configuration properties here -->
</configuration>
dans Hadoop 2.7.3 Le fichier est dans Hadoop-Common/SRC/Main/Conf /
$ Sudo find . -name hadoop-env.sh
./hadoop-2.7.3-src/hadoop-common-project/hadoop-common/src/main/conf/hadoop-env.sh