Як встановити Hadoop з поетапною конфігурацією на Ubuntu

Зміст:

Anonim

У цьому посібнику ми проведемо покроковий процес встановлення Apache Hadoop на Linux (Ubuntu). Це процес із двох частин

  • Частина 1) Завантажте та встановіть Hadoop
  • Частина 2) Налаштування Hadoop

Є 2 передумови

  • У вас повинна бути встановлена ​​та запущена Ubuntu
  • У вас повинна бути встановлена ​​Java.

Частина 1) Завантажте та встановіть Hadoop

Крок 1) Додайте користувача системи Hadoop, використовуючи команду нижче

sudo addgroup hadoop_

sudo adduser --ingroup hadoop_ hduser_

Введіть свій пароль, ім’я та інші дані.

ПРИМІТКА. У цьому процесі встановлення та встановлення існує ймовірність зазначеної нижче помилки.

"hduser відсутній у файлі sudoers. Про цей випадок буде повідомлено".

Цю помилку можна усунути, увійшовши як адміністратор користувача

Виконайте команду

sudo adduser hduser_ sudo

Re-login as hduser_

Крок 2) Налаштування SSH

Для управління вузлами в кластері Hadoop вимагає доступу SSH

Спочатку переключіть користувача, введіть таку команду

su - hduser_

Ця команда створить новий ключ.

ssh-keygen -t rsa -P ""

Увімкніть SSH-доступ до локальної машини за допомогою цього ключа.

cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys

Тепер протестуйте налаштування SSH, підключившись до localhost як користувач "hduser".

ssh localhost

Примітка: Зверніть увагу, якщо ви побачите нижче помилку у відповідь на 'ssh localhost', тоді існує ймовірність того, що SSH недоступний у цій системі-

Щоб вирішити цю проблему -

Очистити SSH за допомогою,

sudo apt-get purge openssh-server

Рекомендується проводити продувку перед початком установки

Встановіть SSH за допомогою команди-

sudo apt-get install openssh-server

Крок 3) Наступним кроком є ​​завантаження Hadoop

Виберіть Стабільний

Виберіть файл tar.gz (не файл із src)

Після завершення завантаження перейдіть до каталогу, що містить файл tar

Введіть,

sudo tar xzf hadoop-2.2.0.tar.gz

Тепер перейменуйте hadoop-2.2.0 як hadoop

sudo mv hadoop-2.2.0 hadoop

sudo chown -R hduser_:hadoop_ hadoop

Частина 2) Налаштування Hadoop

Крок 1) Змініть файл ~ / .bashrc

Додайте наступні рядки в кінець файлу ~ / .bashrc

#Set HADOOP_HOMEexport HADOOP_HOME=#Set JAVA_HOMEexport JAVA_HOME=# Add bin/ directory of Hadoop to PATHexport PATH=$PATH:$HADOOP_HOME/bin

Тепер отримайте цю конфігурацію середовища за допомогою команди нижче

. ~/.bashrc

Крок 2) Конфігурації, пов’язані з HDFS

Встановіть JAVA_HOME всередині файлу $ HADOOP_HOME / etc / hadoop / hadoop-env.sh

С

У $ HADOOP_HOME / etc / hadoop / core-site.xml є два параметри, які потрібно встановити -

1. 'hadoop.tmp.dir' - використовується для вказівки каталогу, який буде використовуватися Hadoop для зберігання своїх файлів даних.

2. 'fs.default.name' - указує файлову систему за замовчуванням.

Щоб встановити ці параметри, відкрийте core-site.xml

sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml

Скопіюйте нижній рядок між тегами

hadoop.tmp.dir/app/hadoop/tmpParent directory for other temporary directories.
fs.defaultFS hdfs://localhost:54310The name of the default file system. 

Перейдіть до каталогу $ HADOOP_HOME / etc / Hadoop

Тепер створіть каталог, згаданий у core-site.xml

sudo mkdir -p 

Надайте дозволи для каталогу

sudo chown -R hduser_:Hadoop_ 

sudo chmod 750 

Крок 3) Конфігурація зменшення карти

Перш ніж почати з цими конфігураціями, давайте встановимо шлях HADOOP_HOME

sudo gedit /etc/profile.d/hadoop.sh

І введіть

export HADOOP_HOME=/home/guru99/Downloads/Hadoop

Далі введіть

sudo chmod +x /etc/profile.d/hadoop.sh

Вийдіть з терміналу і перезапустіть знову

Введіть echo $ HADOOP_HOME. Щоб перевірити шлях

Тепер скопіюйте файли

sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml

Відкрийте файл mapred-site.xml

sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml

Додайте нижче рядки налаштування між тегами та

mapreduce.jobtracker.addresslocalhost:54311MapReduce job tracker runs at this host and port.

Відкрийте $ HADOOP_HOME / etc / hadoop / hdfs-site.xml, як показано нижче,

sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml

Додайте нижче рядки налаштування між тегами та

dfs.replication1Default block replication.
dfs.datanode.data.dir/home/hduser_/hdfs

Створіть каталог, зазначений у вищевказаних настройках-

sudo mkdir -p 
sudo mkdir -p /home/hduser_/hdfs

sudo chown -R hduser_:hadoop_ 
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs

sudo chmod 750 
sudo chmod 750 /home/hduser_/hdfs

Крок 4) Перш ніж ми вперше запустимо Hadoop, відформатуйте HDFS, використовуючи команду нижче

$HADOOP_HOME/bin/hdfs namenode -format

Крок 5) Запустіть кластер одного вузла Hadoop, використовуючи команду нижче

$HADOOP_HOME/sbin/start-dfs.sh

Вихід вищезазначеної команди

$HADOOP_HOME/sbin/start-yarn.sh

За допомогою інструменту / команди 'jps' перевірте, чи всі процеси, пов'язані з Hadoop, запущені чи ні.

Якщо Hadoop успішно запущений, тоді у виведенні jps повинні відображатися NameNode, NodeManager, ResourceManager, SecondaryNameNode, DataNode.

Крок 6) Зупинка Hadoop

$HADOOP_HOME/sbin/stop-dfs.sh

$HADOOP_HOME/sbin/stop-yarn.sh