hadoop/giraph

1.- preparar ambiente de desarrollo

sudo apt-get update
sudo apt-get install vim
sudo apt-get install ssh
sudo apt-get install openssh-server
sudo apt-get install git
sudo apt-get install maven
apt-get install openjdk-8-jdk
java -version    #si la instalación de openjdk8 es correcta, el comando devolverá información de la versión instalada de java

2.- Crear usuario dedicado
sudo addgroup hadoop
sudo adduser hduser
sudo usermod -g hadoop hduser

3.- configuracion ssh
su  hduser
ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
ssh localhost #se escribe "yes" en el terminal sin las comillas, si la conexión se realiza con éxito, escribir comando
exit

4.- instalación hadoop
exit #logout de usuario hduser
cd /usr/local
sudo wget http://archive.apache.org/dist/hadoop/core/hadoop-2.5.1/hadoop-2.5.1.tar.gz
sudo tar xzf hadoop-2.5.1.tar.gz
sudo mv hadoop-2.5.1 hadoop
sudo chown -R hduser:hadoop hadoop

su - hduser
vim .bashrc
# agregar las siguientes lineas al final del archivo de bash
export HADOOP_HOME=/usr/local/hadoop
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
# Despues de salir y guardar la edición del archivo, ejecutar el siguiente script
source $HOME/.bashrc

#Edicion de variables hadoop del archivo hadoop-env.sh
su - hduser
cd $HADOOP_HOME/etc/hadoop/
vim hadoop-env.sh
# reemplazar la linea export JAVA_HOME con lo siguiente
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

#edicion del archivo core-site.xml
cd $HADOOP_HOME/etc/hadoop/
vim core-site.xml
#al final del archivo dentro de <configuration> </configuration> agregar lo siguiente
<property>
    <name>fs.defaultFS</name>
    <value>hdfs://localhost:9000</value>
</property>
<property>
    <name>hadoop.tmp.dir</name>
    <value>/app/hadoop/tmp</value>
    <description>A base for other temporary directories.</description>
</property>

#edicion del archivo hdfs-site.xml
cd $HADOOP_HOME/etc/hadoop/
vim hdfs-site.xml
#al final del archivo dentro de <configuration> </configuration> agregar lo siguiente
<property>
    <name>dfs.replication</name>
    <value>1</value>
</property>
<property>
    <name>dfs.namenode.name.dir</name>
    <value>file:/home/hduser/mydata/hdfs/namenode</value>
</property>
<property>
    <name>dfs.datanode.data.dir</name>
    <value>file:/home/hduser/mydata/hdfs/datanode</value>
</property>

#creacion del directorio de archivos temporales de hadoop
exit //salir de usuario hduser
sudo mkdir -p /app/hadoop/tmp
sudo chown -R hduser:hadoop /app/hadoop/tmp
sudo chmod 750 /app/hadoop/tmp

#inicializar HDFS
$HADOOP_HOME/bin/hdfs namenode -format
$HADOOP_HOME/sbin/start-dfs.sh  #escribir "yes" cuando el terminal lo solicite
$HADOOP_HOME/sbin/start-all.sh

#verificar si los servicios de hadoop están iniciados
jps
####deberia entregar una salida similar a=
50831 Jps
65180 DataNode
65035 NameNode
65612 ResourceManager
65386 SecondaryNameNode
65731 NodeManager


#instalar giraph
cd /usr/local
sudo git clone https://github.com/apache/giraph.git
sudo chown -R hduser:hadoop giraph
su - hduser
#editar .bashrc
vim .bashrc
#agregar al final
export GIRAPH_HOME=/usr/local/giraph
source $HOME/.bashrc
#compilar
cd $GIRAPH_HOME
mvn -Phadoop_2 -Dhadoop.version=2.5.1 -DskipTests package