У цьому посібнику ми проведемо покроковий процес встановлення Apache Hadoop на Linux (Ubuntu). Це процес із двох частин
- Частина 1) Завантажте та встановіть Hadoop
- Частина 2) Налаштування Hadoop
Є 2 передумови
- У вас повинна бути встановлена та запущена Ubuntu
- У вас повинна бути встановлена Java.
Частина 1) Завантажте та встановіть Hadoop
Крок 1) Додайте користувача системи Hadoop, використовуючи команду нижче
sudo addgroup hadoop_
sudo adduser --ingroup hadoop_ hduser_
Введіть свій пароль, ім’я та інші дані.
ПРИМІТКА. У цьому процесі встановлення та встановлення існує ймовірність зазначеної нижче помилки.
"hduser відсутній у файлі sudoers. Про цей випадок буде повідомлено".
Цю помилку можна усунути, увійшовши як адміністратор користувача
Виконайте команду
sudo adduser hduser_ sudo
Re-login as hduser_
Крок 2) Налаштування SSH
Для управління вузлами в кластері Hadoop вимагає доступу SSH
Спочатку переключіть користувача, введіть таку команду
su - hduser_
Ця команда створить новий ключ.
ssh-keygen -t rsa -P ""
Увімкніть SSH-доступ до локальної машини за допомогою цього ключа.
cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys
Тепер протестуйте налаштування SSH, підключившись до localhost як користувач "hduser".
ssh localhost
Примітка: Зверніть увагу, якщо ви побачите нижче помилку у відповідь на 'ssh localhost', тоді існує ймовірність того, що SSH недоступний у цій системі-
Щоб вирішити цю проблему -
Очистити SSH за допомогою,
sudo apt-get purge openssh-server
Рекомендується проводити продувку перед початком установки
Встановіть SSH за допомогою команди-
sudo apt-get install openssh-server
Крок 3) Наступним кроком є завантаження Hadoop
Виберіть Стабільний
Виберіть файл tar.gz (не файл із src)
Після завершення завантаження перейдіть до каталогу, що містить файл tar
Введіть,
sudo tar xzf hadoop-2.2.0.tar.gz
Тепер перейменуйте hadoop-2.2.0 як hadoop
sudo mv hadoop-2.2.0 hadoop
sudo chown -R hduser_:hadoop_ hadoop
Частина 2) Налаштування Hadoop
Крок 1) Змініть файл ~ / .bashrc
Додайте наступні рядки в кінець файлу ~ / .bashrc
#Set HADOOP_HOMEexport HADOOP_HOME=#Set JAVA_HOMEexport JAVA_HOME= # Add bin/ directory of Hadoop to PATHexport PATH=$PATH:$HADOOP_HOME/bin
Тепер отримайте цю конфігурацію середовища за допомогою команди нижче
. ~/.bashrc
Крок 2) Конфігурації, пов’язані з HDFS
Встановіть JAVA_HOME всередині файлу $ HADOOP_HOME / etc / hadoop / hadoop-env.sh
С
У $ HADOOP_HOME / etc / hadoop / core-site.xml є два параметри, які потрібно встановити -
1. 'hadoop.tmp.dir' - використовується для вказівки каталогу, який буде використовуватися Hadoop для зберігання своїх файлів даних.
2. 'fs.default.name' - указує файлову систему за замовчуванням.
Щоб встановити ці параметри, відкрийте core-site.xml
sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml
Скопіюйте нижній рядок між тегами
hadoop.tmp.dir /app/hadoop/tmp Parent directory for other temporary directories. fs.defaultFS hdfs://localhost:54310 The name of the default file system.
Перейдіть до каталогу $ HADOOP_HOME / etc / Hadoop
Тепер створіть каталог, згаданий у core-site.xml
sudo mkdir -p
Надайте дозволи для каталогу
sudo chown -R hduser_:Hadoop_
sudo chmod 750
Крок 3) Конфігурація зменшення карти
Перш ніж почати з цими конфігураціями, давайте встановимо шлях HADOOP_HOME
sudo gedit /etc/profile.d/hadoop.sh
І введіть
export HADOOP_HOME=/home/guru99/Downloads/Hadoop
Далі введіть
sudo chmod +x /etc/profile.d/hadoop.sh
Вийдіть з терміналу і перезапустіть знову
Введіть echo $ HADOOP_HOME. Щоб перевірити шлях
Тепер скопіюйте файли
sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml
Відкрийте файл mapred-site.xml
sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml
Додайте нижче рядки налаштування між тегами
mapreduce.jobtracker.address localhost:54311 MapReduce job tracker runs at this host and port.
Відкрийте $ HADOOP_HOME / etc / hadoop / hdfs-site.xml, як показано нижче,
sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml
Додайте нижче рядки налаштування між тегами
dfs.replication 1 Default block replication. dfs.datanode.data.dir /home/hduser_/hdfs
Створіть каталог, зазначений у вищевказаних настройках-
sudo mkdir -p
sudo mkdir -p /home/hduser_/hdfs
sudo chown -R hduser_:hadoop_
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs
sudo chmod 750
sudo chmod 750 /home/hduser_/hdfs
Крок 4) Перш ніж ми вперше запустимо Hadoop, відформатуйте HDFS, використовуючи команду нижче
$HADOOP_HOME/bin/hdfs namenode -format
Крок 5) Запустіть кластер одного вузла Hadoop, використовуючи команду нижче
$HADOOP_HOME/sbin/start-dfs.sh
Вихід вищезазначеної команди
$HADOOP_HOME/sbin/start-yarn.sh
За допомогою інструменту / команди 'jps' перевірте, чи всі процеси, пов'язані з Hadoop, запущені чи ні.
Якщо Hadoop успішно запущений, тоді у виведенні jps повинні відображатися NameNode, NodeManager, ResourceManager, SecondaryNameNode, DataNode.
Крок 6) Зупинка Hadoop
$HADOOP_HOME/sbin/stop-dfs.sh
$HADOOP_HOME/sbin/stop-yarn.sh