Подробная инструкция по установке Hadoop в операционной системе CentOS 7 — шаг за шагом руководство

Hadoop — это открытая платформа, разработанная для обработки и хранения больших объемов данных на кластере серверов. Установка Hadoop в CentOS 7 может показаться сложной задачей, но с помощью данной пошаговой инструкции вы сможете успешно справиться с этой задачей.

Перед началом установки, убедитесь, что на вашем сервере установлена операционная система CentOS 7 и у вас есть все необходимые права для установки и конфигурирования программного обеспечения.

Прежде чем перейти к установке, вам понадобятся следующие предустановленные компоненты:

— Java Development Kit (JDK)

— SSH для взаимодействия между узлами кластера

— Пользователь с правами sudo

Установка Hadoop на CentOS 7 включает несколько шагов, таких как создание пользователя Hadoop, настройка переменных среды, загрузка и распаковка дистрибутива Hadoop, а также настройка конфигурационных файлов. Следуя нашей пошаговой инструкции, вы сможете успешно установить и настроить Hadoop на сервере CentOS 7.

Требования к системе

Перед установкой Hadoop на CentOS 7 необходимо убедиться, что система соответствует следующим требованиям:

1. Конфигурация системы:

  • 4 ГБ оперативной памяти или более (рекомендуется 8 ГБ или больше);
  • Доступное дисковое пространство для установки Hadoop и хранения данных;
  • Процессор с поддержкой виртуализации (используется для запуска виртуальных машин внутри Hadoop).

2. Версия CentOS:

Убедитесь, что у вас установлена CentOS 7 (или более новая версия). Hadoop не поддерживает более старые версии CentOS.

3. Права администратора:

Для установки и настройки Hadoop потребуются права администратора. Убедитесь, что у вас есть доступ к учетной записи с правами администратора.

4. Наличие Java Development Kit (JDK):

Hadoop работает на платформе Java, поэтому перед установкой необходимо убедиться, что JDK установлен и настроен на вашей системе.

5. Сетевые настройки:

Убедитесь, что сетевая конфигурация вашей системы правильно настроена, и вы можете получить доступ к сети для установки и настройки Hadoop.

Шаг 1. Установка Java Development Kit (JDK)

Перед установкой Hadoop необходимо установить Java Development Kit (JDK). В CentOS 7 по умолчанию устанавливается OpenJDK, но мы рекомендуем использовать Oracle JDK для работы с Hadoop. В данном руководстве мы опишем установку Oracle JDK.

1. Скачайте Oracle JDK с официального сайта, выбрав нужную версию JDK и архитектуру вашей операционной системы. На момент написания этой статьи, текущая стабильная версия Oracle JDK — JDK 11.0.4.

2. Перейдите в каталог, в который вы загрузили JDK, и выполните следующую команду:

tar -xvf jdk-11.0.4_linux-x64_bin.tar.gz

3. Перейдите в каталог с распакованным JDK:

cd jdk-11.0.4/

4. Скопируйте JDK в системный каталог /usr/lib/jvm/:

sudo cp -r * /usr/lib/jvm/

5. Установите альтернативы для JDK:

sudo alternatives --install /usr/bin/java java /usr/lib/jvm/jdk-11.0.4/bin/java 2

sudo alternatives --install /usr/bin/javac javac /usr/lib/jvm/jdk-11.0.4/bin/javac 2

6. Установка JDK выполнена успешно. Для проверки установки JDK введите следующую команду:

java -version

Теперь, после успешной установки JDK, вы можете продолжить установку Hadoop.

Шаг 2. Установка и настройка SSH

Шаг 1. Установка SSH:

1. Откройте терминал и выполните следующую команду для установки пакета OpenSSH:

sudo yum install openssh-server

2. При запросе подтверждения установки, введите «Y» и нажмите Enter.

Шаг 2. Настройка SSH:

1. Откройте файл конфигурации SSH с помощью текстового редактора (например, nano или vi):

sudo nano /etc/ssh/sshd_config

2. Найдите строку «Port» и измените порт SSH по умолчанию на желаемый порт (например, 2222). Закомментируйте строку, если хотите использовать порт по умолчанию:

#Port 22
Port 2222

3. Найдите строку «PermitRootLogin» и измените значение на «no», чтобы запретить вход в систему с помощью учетной записи root:

PermitRootLogin no

4. Найдите строку «PasswordAuthentication» и измените значение на «yes», чтобы разрешить аутентификацию по паролю. Если вы планируете использовать только аутентификацию по ключу, можете оставить значение «no»:

PasswordAuthentication yes

5. Сохраните изменения и закройте файл.

6. Перезапустите службу SSH для применения настроек:

sudo systemctl restart sshd

Теперь SSH настроен и готов к использованию на сервере CentOS 7.

Шаг 3. Создание пользователя Hadoop

Для удобства управления Hadoop рекомендуется создать отдельного пользователя, который будет использоваться только для работы с Hadoop. В этом разделе мы настроим пользователя Hadoop и назначим ему необходимые разрешения.

1. Создайте нового пользователя с именем Hadoop с помощью команды:

sudo useradd -m hadoop

2. Задайте пароль для нового пользователя с помощью команды:

sudo passwd hadoop

3. Установите домашнюю директорию для пользователя Hadoop:

sudo usermod -d /home/hadoop -m -s /bin/bash hadoop

4. Назначьте новому пользователю права суперпользователя с помощью команды:

sudo usermod -aG wheel hadoop

Примечание: Параметр -aG указывает, что пользователь Hadoop будет добавлен в группу wheel, которая имеет права суперпользователя.

Теперь у вас есть отдельный пользователь Hadoop, который будет использоваться при работе с Hadoop.

Шаг 4. Установка Hadoop

Для установки Hadoop в CentOS 7 выполните следующие действия:

  1. Скачайте Hadoop с официального сайта проекта.
  2. Распакуйте архив с Hadoop на вашем сервере.
  3. Переместите распакованную папку Hadoop в желаемую директорию.
  4. Настройте переменные окружения в файле .bashrc или .bash_profile, добавив следующие строки:
  5. export HADOOP_HOME=/путь/к/папке/hadoop
    export PATH=$PATH:$HADOOP_HOME/bin
    
  6. Сохраните изменения и обновите текущую оболочку командой:
  7. source ~/.bashrc
  8. Перейдите в директорию с Hadoop и выполните следующую команду для установки:
  9. ./bin/hadoop namenode -format

Теперь Hadoop установлен на вашем сервере CentOS 7 и готов к использованию.

Шаг 5. Настройка конфигурационных файлов

Для работы Hadoop требуется настроить несколько конфигурационных файлов. В этом разделе мы рассмотрим файлы hdfs-site.xml и core-site.xml.

Файл hdfs-site.xml

Отредактируйте файл hdfs-site.xml следующим образом:

КлючЗначение
dfs.replication3
dfs.namenode.name.dir/hadoop/data/dfs/name
dfs.datanode.data.dir/hadoop/data/dfs/data

Установите значение dfs.replication равным 3, чтобы дублировать данные на 3 узла. Укажите пути для хранения метаданных и данных в соответствующих ключах.

Файл core-site.xml

В файле core-site.xml выполните следующие изменения:

КлючЗначение
fs.defaultFShdfs://localhost:9000

Укажите адрес и порт, по которым будет доступно распределенное файловое хранилище HDFS.

После внесения изменений в указанные файлы, сохраните их и перезапустите сервис Hadoop для применения новой конфигурации.

Шаг 6. Запуск Hadoop

После установки и настройки Hadoop осталось только запустить его и убедиться, что все работает правильно.

  1. Запустите Hadoop, выполнив команду: start-all.sh
  2. Проверьте статус Hadoop, выполнив команду: hadoop dfsadmin -report
  3. Убедитесь, что все службы Hadoop работают без ошибок и имеют статус «Live».
  4. Для проверки функциональности Hadoop вы можете загрузить небольшой файл в HDFS, используя команду: hadoop fs -put /path/to/local/file /hdfs/path
  5. Проверьте, что файл успешно загружен, выполнив команду: hadoop fs -ls /hdfs/path

Поздравляю! Теперь у вас установлена и успешно запущена Hadoop на CentOS 7.

Оцените статью