Hadoop — это открытая платформа, разработанная для обработки и хранения больших объемов данных на кластере серверов. Установка Hadoop в CentOS 7 может показаться сложной задачей, но с помощью данной пошаговой инструкции вы сможете успешно справиться с этой задачей.
Перед началом установки, убедитесь, что на вашем сервере установлена операционная система CentOS 7 и у вас есть все необходимые права для установки и конфигурирования программного обеспечения.
Прежде чем перейти к установке, вам понадобятся следующие предустановленные компоненты:
— Java Development Kit (JDK)
— SSH для взаимодействия между узлами кластера
— Пользователь с правами sudo
Установка Hadoop на CentOS 7 включает несколько шагов, таких как создание пользователя Hadoop, настройка переменных среды, загрузка и распаковка дистрибутива Hadoop, а также настройка конфигурационных файлов. Следуя нашей пошаговой инструкции, вы сможете успешно установить и настроить Hadoop на сервере CentOS 7.
Требования к системе
Перед установкой Hadoop на CentOS 7 необходимо убедиться, что система соответствует следующим требованиям:
1. Конфигурация системы:
- 4 ГБ оперативной памяти или более (рекомендуется 8 ГБ или больше);
- Доступное дисковое пространство для установки Hadoop и хранения данных;
- Процессор с поддержкой виртуализации (используется для запуска виртуальных машин внутри Hadoop).
2. Версия CentOS:
Убедитесь, что у вас установлена CentOS 7 (или более новая версия). Hadoop не поддерживает более старые версии CentOS.
3. Права администратора:
Для установки и настройки Hadoop потребуются права администратора. Убедитесь, что у вас есть доступ к учетной записи с правами администратора.
4. Наличие Java Development Kit (JDK):
Hadoop работает на платформе Java, поэтому перед установкой необходимо убедиться, что JDK установлен и настроен на вашей системе.
5. Сетевые настройки:
Убедитесь, что сетевая конфигурация вашей системы правильно настроена, и вы можете получить доступ к сети для установки и настройки Hadoop.
Шаг 1. Установка Java Development Kit (JDK)
Перед установкой Hadoop необходимо установить Java Development Kit (JDK). В CentOS 7 по умолчанию устанавливается OpenJDK, но мы рекомендуем использовать Oracle JDK для работы с Hadoop. В данном руководстве мы опишем установку Oracle JDK.
1. Скачайте Oracle JDK с официального сайта, выбрав нужную версию JDK и архитектуру вашей операционной системы. На момент написания этой статьи, текущая стабильная версия Oracle JDK — JDK 11.0.4.
2. Перейдите в каталог, в который вы загрузили JDK, и выполните следующую команду:
tar -xvf jdk-11.0.4_linux-x64_bin.tar.gz
3. Перейдите в каталог с распакованным JDK:
cd jdk-11.0.4/
4. Скопируйте JDK в системный каталог /usr/lib/jvm/
:
sudo cp -r * /usr/lib/jvm/
5. Установите альтернативы для JDK:
sudo alternatives --install /usr/bin/java java /usr/lib/jvm/jdk-11.0.4/bin/java 2
sudo alternatives --install /usr/bin/javac javac /usr/lib/jvm/jdk-11.0.4/bin/javac 2
6. Установка JDK выполнена успешно. Для проверки установки JDK введите следующую команду:
java -version
Теперь, после успешной установки JDK, вы можете продолжить установку Hadoop.
Шаг 2. Установка и настройка SSH
Шаг 1. Установка SSH:
1. Откройте терминал и выполните следующую команду для установки пакета OpenSSH:
sudo yum install openssh-server |
2. При запросе подтверждения установки, введите «Y» и нажмите Enter.
Шаг 2. Настройка SSH:
1. Откройте файл конфигурации SSH с помощью текстового редактора (например, nano или vi):
sudo nano /etc/ssh/sshd_config |
2. Найдите строку «Port» и измените порт SSH по умолчанию на желаемый порт (например, 2222). Закомментируйте строку, если хотите использовать порт по умолчанию:
#Port 22 |
Port 2222 |
3. Найдите строку «PermitRootLogin» и измените значение на «no», чтобы запретить вход в систему с помощью учетной записи root:
PermitRootLogin no |
4. Найдите строку «PasswordAuthentication» и измените значение на «yes», чтобы разрешить аутентификацию по паролю. Если вы планируете использовать только аутентификацию по ключу, можете оставить значение «no»:
PasswordAuthentication yes |
5. Сохраните изменения и закройте файл.
6. Перезапустите службу SSH для применения настроек:
sudo systemctl restart sshd |
Теперь SSH настроен и готов к использованию на сервере CentOS 7.
Шаг 3. Создание пользователя Hadoop
Для удобства управления Hadoop рекомендуется создать отдельного пользователя, который будет использоваться только для работы с Hadoop. В этом разделе мы настроим пользователя Hadoop и назначим ему необходимые разрешения.
1. Создайте нового пользователя с именем Hadoop с помощью команды:
sudo useradd -m hadoop
2. Задайте пароль для нового пользователя с помощью команды:
sudo passwd hadoop
3. Установите домашнюю директорию для пользователя Hadoop:
sudo usermod -d /home/hadoop -m -s /bin/bash hadoop
4. Назначьте новому пользователю права суперпользователя с помощью команды:
sudo usermod -aG wheel hadoop
Примечание: Параметр -aG указывает, что пользователь Hadoop будет добавлен в группу wheel, которая имеет права суперпользователя.
Теперь у вас есть отдельный пользователь Hadoop, который будет использоваться при работе с Hadoop.
Шаг 4. Установка Hadoop
Для установки Hadoop в CentOS 7 выполните следующие действия:
- Скачайте Hadoop с официального сайта проекта.
- Распакуйте архив с Hadoop на вашем сервере.
- Переместите распакованную папку Hadoop в желаемую директорию.
- Настройте переменные окружения в файле .bashrc или .bash_profile, добавив следующие строки:
- Сохраните изменения и обновите текущую оболочку командой:
- Перейдите в директорию с Hadoop и выполните следующую команду для установки:
export HADOOP_HOME=/путь/к/папке/hadoop
export PATH=$PATH:$HADOOP_HOME/bin
source ~/.bashrc
./bin/hadoop namenode -format
Теперь Hadoop установлен на вашем сервере CentOS 7 и готов к использованию.
Шаг 5. Настройка конфигурационных файлов
Для работы Hadoop требуется настроить несколько конфигурационных файлов. В этом разделе мы рассмотрим файлы hdfs-site.xml
и core-site.xml
.
Файл hdfs-site.xml
Отредактируйте файл hdfs-site.xml
следующим образом:
Ключ | Значение |
---|---|
dfs.replication | 3 |
dfs.namenode.name.dir | /hadoop/data/dfs/name |
dfs.datanode.data.dir | /hadoop/data/dfs/data |
Установите значение dfs.replication
равным 3, чтобы дублировать данные на 3 узла. Укажите пути для хранения метаданных и данных в соответствующих ключах.
Файл core-site.xml
В файле core-site.xml
выполните следующие изменения:
Ключ | Значение |
---|---|
fs.defaultFS | hdfs://localhost:9000 |
Укажите адрес и порт, по которым будет доступно распределенное файловое хранилище HDFS.
После внесения изменений в указанные файлы, сохраните их и перезапустите сервис Hadoop для применения новой конфигурации.
Шаг 6. Запуск Hadoop
После установки и настройки Hadoop осталось только запустить его и убедиться, что все работает правильно.
- Запустите Hadoop, выполнив команду:
start-all.sh
- Проверьте статус Hadoop, выполнив команду:
hadoop dfsadmin -report
- Убедитесь, что все службы Hadoop работают без ошибок и имеют статус «Live».
- Для проверки функциональности Hadoop вы можете загрузить небольшой файл в HDFS, используя команду:
hadoop fs -put /path/to/local/file /hdfs/path
- Проверьте, что файл успешно загружен, выполнив команду:
hadoop fs -ls /hdfs/path
Поздравляю! Теперь у вас установлена и успешно запущена Hadoop на CentOS 7.