hadoop配置文件

hadoop.home.dir在哪儿

1、bin:
bin目录是Hadoop最基本的管理脚本和使用脚本所在的目录,这些脚本是sbin目录下管理脚本的基础实现,用户可以直接使用这些脚本管理和使用Hadoop
在这里插入图片描述
2、sbin
存放的是我们管理脚本的所在目录,重要是对hdfs和yarn的各种开启和关闭和单线程开启和守护
在这里插入图片描述
文件名称作用
hadoop-daemon.sh通过执行hadoop命令来启动/停止一个守护进程(daemon);他可以单独开启一个进程也可以使用hadoop-daemons来开启多个进程,这样我们在某台机器挂掉时,就不用全部重新开启了
start-all.sh调用 start-dfs.sh和start-yarn.sh(官方不建议使用)
stop-all.sh调用 stop-dfs.sh和stop-yarn.sh(官方不建议使用)
start-dfs.sh启动NameNode ,SecondaryNamenode ,DataNode这些进程
start-yarn.sh启动ResourceManager,nodeManager 这些进程
stop-dfs.sh关闭NameNode ,SecondaryNamenode ,DataNode这些进程
stop-yarn.sh关闭ResourceManager,nodeManager 这些进程
stop-balancer.sh停止balancer
stop-mapred.sh停止MapReduce
3、etc
存放一些hadoop的配置文件
在这里插入图片描述
文件名称作用说明
core-site.xmlHadoop核心全局配置文件,可以其他配置文件中引用该文件中定义的属性,如在hdfs-site.xml及mapred-site.xml中会引用该文件的属性;该文件的模板文件存在于$HADOOP_HOME/src/core/core-default.xml,可将模板文件复制到conf目录,再进行修改。
hadoop-env.shHadoop环境变量
hdfs-site.xmlHDFS配置文件,该模板的属性继承于core-site.xml;该文件的模板文件存于$HADOOP_HOME/src/hdfs/hdfs-default.xml,可将模板文件复制到conf目录,再进行修改
mapred-site.xmlMapReduce的配置文件,该模板的属性继承于core-site.xml;该文件的模板文件存于$HADOOP_HOME/src/mapred/mapredd-default.xml,可将模板文件复制到conf目录,再进行修改
slaves用于设置所有的slave的名称或IP,每行存放一个。如果是名称,那么设置的slave名称必须在/etc/hosts有IP映射配置
4、lib
该目录下存放的是Hadoop运行时依赖的jar包,Hadoop在执行时会把lib目录下面的jar全部加到classpath中。
在这里插入图片描述
5、logs
该目录存放的是Hadoop运行的日志,查看日志对寻找Hadoop运行错误非常有帮助。
在这里插入图片描述
6、include
对外提供的编程库头文件(具体动态库和静态库在lib目录中),这些头文件均是用C++定义的,通常用于C++程序访问HDFS或者编写MapReduce程序。
在这里插入图片描述
7、libexec
各个服务对用的shell配置文件所在的目录,可用于配置日志输出、启动参数(比如JVM参数)等基本信息。
在这里插入图片描述
8、share目录
Hadoop各个模块编译后的jar包所在的目录。
在这里插入图片描述
在这里插入图片描述
文章知识点与官方知识档案匹配
CS入门技能树Linux入门初识Linux
23099 人正在系统学习中

hadoop设置执行对应角色

做法:
(1)核心配置文件core-site.xml,该配置文件属于Hadoop的全局配置文件,我们主要进行配置分布式文件系统的入口地址NameNode的地址和分布式文件系统中数据落地到服务器本地磁盘位置的配置
(2)Hadoop环境配置文件hadoop-env.sh,在这个配置文件中我们主要需要制定jdk的路径JAVA_HOME,避免程序运行中出现JAVA_HOME找不到的异常。
(3)HDFS配置文件hdfs-site.xml,在这个配置文件中主要进行配置HDFS文件系统属性配置。
(4)YARN的环境配置文件yarn-env.sh,同样将JAVA_HOME路径配置指明。
(5)关于YARN的配置文件yarn-site.xml,其中配置YARN的相关参数,主要配置一下两个参数。
(6)mapreduce的环境配置文件mapred-env.sh,同样将JAVA_HOME路径配置指明。(7)关于MapReduce的配置文件mapred-site.xml,主要配置一个参数,指明MapReduce的运行框架为YARN.
(8)主节点NameNode和ResourceManager的角色在配置文件中已经做了配置,从节点的角色还需指定,配置文件slaves就是用来配置Hadoop集群中各个从节点角色的。如下,对slaves文件进行修改,即将3台节点全部指定为从节点,可以启动DataNode和NodeManager进程。
(9)在集群上分发配置好的Hadoop配置文件,这样3台节点即享有相同的Hadoop的配置,可准备通过不同的进程启动命令进行启动了。
(10)查看文件分发情况。

大数据 hadoop 三种运行模式的区别、及详细配置讲解

基于Hadoop进行开发时,有时候会被Hadoop的运行模式弄得晕头转向,傻傻分不清各种运行模式的区别,给日常开发带来很多困惑,不同集群配置文件也各不相不同。弄明白Hadoop的运行模式和对配置文件的作用要做到心中明了,在工作中才能得手顺心。

hadoop的配置文件均以XML文件进行配置,它有四个最常见的配置文件,分别为:

core-site.xml文件主要用于配置通用属性。

hdfs-site.xml文件用于配置Hdfs的属性。

mapred-site.xml文件用于配置Mapreduce的属性。

yarn-site.xml文件用于配置Yarn的属性。

一般来说,这四种配置文件都存储在hadoop默认的安装目录etc/hadoop子目录中。 不过我们也可以在搭建集群时根据实际需求,把etc/hadoop目录和其下的文件复制到另外一个位置。这样可以把配置文件和安装文件分离开来,方便管理。

注意:如果把etc/hadoop目录和其下的文件复制到另外一个位置。
我们需要在环境变量中将hadoop_conf_dir设置成指向新目录。

1、本地运行模式

无需任何守护进程 ,所有的程序都运行在同一个JVM上执行。在本地模式下调试MR程序非常高效方便,一般该模式主要是在学习或者开发阶段调试使用 。

2、伪分布式模式

Hadoop守护进程运行在本地机器上 ,模拟一个小规模的集群,换句话说,可以配置一台机器的Hadoop集群,伪分布式是完全分布式的一个特例。

3、完全分布式模式

Hadoop守护进程运行在一个集群上 。这种运行模式也就是我们常见的各种云,主要用于大规模的生产环境中。

注意:分布式要启动守护进程 ,是指在使用分布式hadoop时,要先启动一些准备程序进程,然后才能使用。 比如start-dfs.sh start-yarn.sh,而本地模式不需要启动这些守护进程。

注意:在本地模式下,将使用本地文件系统和本地MapReduce运行器。在分布式模式下,将启动HDFS和YARN守护进程。

kettle连接hadoop配置hdfs文件数据导出

1、Win10本地安装JDK1.8环境,运行kettle 6.1。

2、在kettle中设置Active shim,在工具打开“hadoop distribution”,选择hdp。将hadoop配置文件hdfs-site.xml、core-site.xml拷贝至本地.\data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\hdp23\下,修改本地core-site文件内fs.defaultFS的值,使用hdfs://192.168.85.129:8020。

3、配置hadoop cluster连接,在作业或转换“主对象树”选中“hadoop cluster”,右击“new cluster”,填写相关信息。遇到本机用户不能访问hdfs下/user目录权限,在/user目录新建本机用户zhengyuan目录,并授予zhengyua

Hadoop集群配置

切换到Hadoop解压目录的etc/hadoop/目录下,hadoop-env.sh,修改如下内容:

该文件是Hadoop的核心配置文件,目的是配置HDFS地址、端口号以及临时文件目录。

该文件MapReduce的核心文件,用于指定MapReduce运行时框架。在etc/hadoop/目录没有该文件,需要将mapred-site.xml.template复制并重命名为mapred-site.xml。
该文件YARN的核心文件,需要指定YARN集群的管理者。

该文件记录Hadoop集群所有从节点(HDFSde DataNode和YARN的NodeManager所在主机)的主机名,用来配合一键启动脚本启动集群从节点(保证关联节点配置了SSH免密登录)。打开slaves文件,先删除里面的内容(默认localhost),配置如下内容

完成Hadoop集群主节点hadoop01的配置后,还需要将系统环境配置文件、JDK安装目录和Hadoop安装目录分发到其他子节点hadoop02和hadoop03上,具体指令:

  scp /etc/profile hadoop02:/etc/profile

  scp /etc/profile hadoop03:/etc/profile

  scp -r /export/ hadoop02:/

  scp -r /export/ hadoop03:/

完成后,在hadoop02和hadoop03节点刷新配置文件:

  source /etc/profile

初次启动HDFS集群时,必须对主节点进行格式化处理。注意:格式化指令只需在Hadoop集群初次启动前执行即可。指令:

hdfs namenode –format

hadoop namenode -format

出现“successfully formatted“字样表示格式化成功。

针对Hadoop集群的启动,需要启动内部包含的HDFS集群和YARN集群两个集群框架。

启动:

(1)start-dfs.sh  #启动所有HDFS服务进程

(2)start-yarn.sh  #启动所有YARN服务进程

或者:

start-all.sh直接启动整个Hadoop集群服务

关闭则直接将上述指令中的start换成stop即可。

在整个Hadoop集群服务启动完成后,可以在各自机器上通过jps指令查看各节点的服务进程启动情况。

集群启动成功。

hadoop 配置文件部分

9000端口:是fileSystem默认的端口号:
50070端口: 50070是hdfs的web管理页面的端口 (50070端口也可以查看hdfs 的总存储 以及用了多少等情况),如下图

8020端口: namenode 节点下active的端口

添加配置文件,即可解决问题

hadoop的核心配置文件有哪些

在hadoop1中核心组成部分是HDFS、MapReduce,到了Hadoop2,核心变为HDFS、Yarn,而且新的HDFS中可以有多个Na注意,数量一定是奇数,且不少于三个节点
(4)hadoop.proxyuser.erpmerge.hosts、hadoop.proxyuser.erpmerge.groups主要用来设置oozie的代理用户

创建hadoop用户创错地方了

说明:在安装好Centos系统后,用root创建一般用户hadoop,在hadoop用户下搭建Hadoop集群,故很多文件的路径均为/home/hadoop…下面介绍一般步骤:
1.创建一批普通用户,如test01、test02…并为其设置密码,命令如下:
useradd test01 创建用户
passwd test01 为test01设置密码
1
2
1
2
2.把该批普通用户加入hadoop用户组
gpasswd -a test01 hadoop 把用户test01加入hadoop用户组
1
1
注:在文件/etc/passwd中记录着系统所有的用户;在文件/etc/shadow中记录着所有用户的密码,并一一对应;在文件/etc/group中记录着所有的用户组。
3.由于在/home/hadoop/.bashrc中配置了相关的环境变量,在启动spark-shell、hive、hbase时不需要加入相关路径,为了便于普通用户test01等的操作,在test01等用户的.bashrc文件中配置相关环境变量,并用source ~./bashrc使其生效。
4.按照上述步骤设置后,可以正常启动spark-shell与hbase shell,但启动hive时出现报错:
Permission denied:user=test01,access=EXECUTE,inode=“/tmp/hive“:hadoop:supergroup:drwxrwx—
1
1
出现这个问题的原因是在hdfs上目录/tmp/hive的所有者为hadoop,所属用户组为supergroup,而相对于该目录用户test01属于其他用户,不具有任何权限,这里报错是不具有EXECUTE权限,要想解决这个问题,需要修改/tmp/hive的权限,命令如下:
hdfs dfs -chmod 777 /tmp 修改/tmp的权限
1
1
再次启动hive便不会再报该错误。
5.在hadoop用户上可以正常运行如下程序,但是在test01用户登录运行时抛出异常
hadoop jar hadoop jar /home/hadoop/hadoop2.7.1/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar wordcount /test/input /test/output
1
1
注:这里运行的是wordcount示例,/test/input为数据所在路径;/test/output为输出结果目录,运行时自动创建。
在test01用户上执行该程序时抛出如下异常:
这里写图片描述
出现这个异常的原因是:
原来mapreduce.jobhistory.address 和mapreduce.jobhistory.webapp.addres 这两个address的地址使用的是CDH默认的配置值,这里需要改成hostna

| 本站所有文章、数据、图片均来自互联网,一切版权均归源网站或源作者所有。 如果侵犯了你的权益请来信告知我们删除。邮箱:973000716@qq.com