安装 Hadoop：设置单节点 Hadoop 集群-卡咪卡咪哈-一个博客

安装 Hadoop：设置单节点 Hadoop 集群

你一定对Hadoop，HDFS及其架构有一个理论概念。但是要获得Hadoop认证，您需要良好的实践知识。我希望你会喜欢我们之前关于HDFS架构的博客，现在我将带你了解Hadoop和HDFS的实用知识。第一步是安装Hadoop。

安装Hadoop有两种方法，即单节点和多节点。

单节点群集意味着只有一个数据节点在一台计算机上运行和设置所有名称节点、数据节点、资源管理器和节点管理器。这用于学习和测试目的。例如，让我们考虑医疗保健行业内部的示例数据集。因此，为了测试Oozie作业是否按适当的顺序安排了所有过程，例如收集，聚合，存储和处理数据，我们使用单节点集群。与包含分布在数百台机器上的 TB 级数据的大型环境相比，它可以在较小的环境中轻松高效地测试顺序工作流。

在多节点群集中，有多个数据节点正在运行，每个数据节点在不同的计算机上运行。多节点集群实际上在组织中用于分析大数据。考虑上面的例子，当我们实时处理PB级数据时，需要将其分布在数百台机器上进行处理。因此，这里我们使用多节点集群。

在这篇博客中，我将向您展示如何在单节点集群上安装 Hadoop。

先决条件

虚拟机：用于在其上安装操作系统。
操作系统：您可以在基于 Linux 的操作系统上安装 Hadoop。Ubuntu 和 CentOS 是非常常用的。在本教程中，我们将使用 CentOS。
JAVA：您需要在系统上安装 Java 8 软件包。
HADOOP：你需要Hadoop 2.7.3软件包。

安装 Hadoop

第 1 步：单击此处下载 Java 8 软件包。将此文件保存在主目录中。

第 2 步：解压缩 Java tar 文件。

命令： tar -xvf jdk-8u101-linux-i586.tar.gz

Untar Java - Install Hadoop - Edureka

图：Hadoop 安装 – 提取 Java 文件

第 3 步：下载 Hadoop 2.7.3 软件包。

命令：wget https://archive.apache.org/dist/hadoop/core/hadoop-2.7.3/hadoop-2.7.3.tar.gz

下载Hadoop软件包 - 安装Hadoop - Edureka

图：Hadoop 安装 – 下载 Hadoop

第 4 步：解压缩 Hadoop tar 文件。

命令： tar -xvf hadoop-2.7.3.tar.gz

提取Hadoop软件包 - 安装Hadoop - Edureka

图：Hadoop 安装 – 提取 Hadoop 文件

第 5 步：在 bash 文件（.bashrc）中添加 Hadoop 和 Java 路径。

打开.bashrc文件。现在，添加Hadoop和Java Path，如下所示。

通过 Hadoop 认证了解有关 Hadoop 生态系统及其工具的更多信息。

命令： vi .bashrc

Open bash - 安装 Hadoop - Edureka

在 bash 中添加 Java 和 Hadoop 变量 - 安装 Hadoop - Edureka

图：Hadoop 安装 – 设置环境变量

然后，保存 bash 文件并关闭它。

要将所有这些更改应用于当前终端，请执行 source 命令。

命令： sourec .bashrc

将更改应用于 Bash - 安装 Hadoop - Edureka

图：Hadoop 安装 – 刷新环境变量

要确保 Java 和 Hadoop 已正确安装在您的系统上，并且可以通过终端访问，请执行 java 版本和 hadoop 版本命令。

命令： java 版本

检查Java版本 - 安装Hadoop - Edureka

图：Hadoop 安装 – 检查 Java 版本

命令：hadoop version

检查Hadoop版本 - 安装Hadoop - Edureka

图：Hadoop 安装 – 检查 Hadoop 版本

第 6 步：编辑 Hadoop 配置文件。

命令： cd hadoop-2.7.3/etc/hadoop/

命令： ls

所有Hadoop配置文件都位于hadoop-2.7.3/etc/hadoop目录中，如下面的快照所示：

Hadoop 配置文件 - 安装 Hadoop - Edureka

图：Hadoop 安装 – Hadoop 配置文件

第 7 步：打开核心站点.xml并在配置标记中编辑下面提到的属性：

core-site.xml 通知 Hadoop 守护进程 NameNode 在集群中的运行位置。它包含Hadoop核心的配置设置，例如HDFS和MapReduce通用的I / O设置。

命令： vi core-site.xml

编辑核心站点 - 安装 Hadoop - Edureka

核心站点的属性 - 安装 Hadoop - Edureka

图：Hadoop 安装 – 配置core-site.xml

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>

第 8 步：编辑 hdfs-site.xml并在配置标记中编辑下面提到的属性：

hdfs-site.xml 包含 HDFS 守护进程（即 NameNode、DataNode、Secondary NameNode）的配置设置。它还包括HDFS的复制因子和块大小。

命令： vi hdfs-site.xml

编辑 hdfs 站点 - 安装 Hadoop - Edureka

hdfs-site 的属性 - 安装 Hadoop - Edureka

图：Hadoop 安装 – 配置 hdfs-site.xml

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.permission</name>
<value>false</value>
</property>
</configuration>

第 9 步：编辑 mapred-site.xml 文件并在配置标记中编辑下面提到的属性：

mapred-site.xml包含MapReduce应用程序的配置设置，例如可以并行运行的JVM数量，映射器和化简器进程的大小，可用于进程的CPU内核等。

在某些情况下，mapred-site.xml 文件不可用。因此，我们必须使用 mapred-site.xml 模板创建 mapred-site.xml 文件。

命令： cp mapred-site.xml.template mapred-site.xml

命令：vi mapred-site.xml.

创建映射站点 - 安装 Hadoop - Edureka

编辑映射站点 - 安装 Hadoop - Edureka

mapred-site 的属性 - 安装 Hadoop - Edureka

图：Hadoop 安装 – 配置mapred-site.xml

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>