18
2021
02

hadoop的块大小,从哪个版本开始是128M

Hadoop1.x都是64M,hadoop2.x开始都是128M。
17
2021
02

请写出以下的shell命令 (1)杀死一个job (2)删除hdfs上的 /tmp/aaa目录 (3)加入一个新的存储节点和删除一个节点需要执行的命令

答:(1)hadoop job –list 得到job的id,然后执 行 hadoop job -kill jobId就可以杀死一个指定jobId的job工作了。(2)hadoopfs -rmr /tmp/aaa(3) 增加一个新的节点在新的几点上执行Hadoop daemon.sh start datanodeHadooop daemon.sh start tasktracker/nodemanager下线时,要在conf目录下的excludes文件中列出要下线的datanode机器主机名然后
17
2021
02

简要描述如何安装配置apache的一个开源hadoop,只描述即可,无需列出具体步骤,列出具体步骤更好。

答:第一题:1使用root账户登录2 修改IP3 修改host主机名4 配置SSH免密码登录5 关闭防火墙6 安装JDK6 解压hadoop安装包7 配置hadoop的核心文件 hadoop-env.sh,core-site.xml , mapred-site.xml , hdfs-site.xml8 配置hadoop环境变量9 格式化 hadoop namenode-format10 启动节点start-all.sh
19
2021
01

mr 工作原理

mr 将得到的split 分配对应的 task,每个任务处理相对应的 split,将 split 以 line 方式读取每一行数据,将数据依次读取到100M(maprdeuce.task.io.sort.mb)的环形缓冲区读取过程中一旦到达阈值(mapreduce.map.sort.spill.percent)80M进行溢写操作,spiller线程溢写到磁盘(mapreduce.cluster.local.dir)目录中,期间会进行kv分区(分区数由reduce数来决定)默认使用hashpart
14
2020
11

MapReduce优化经验

设置合理的map和reduce的个数。合理设置blocksize避免出现数据倾斜combine函数对数据进行压缩小文件处理优化:事先合并成大文件,combineTextInputformat,在hdfs上用mapreduce将小文件合并成SequenceFile大文件(key:文件名,value:文件内容)参数优化
14
2020
11

描述一下hadoop中,有哪些地方使用到了缓存机制,作用分别是什么?

Shuffle中Hbase----客户端/regionserver
14
2020
11

sqoop在导入数据到mysql中,如何不重复导入数据,如果存在数据问题,sqoop如何处理?

FAILED java.util.NoSuchElementException此错误的原因为sqoop解析文件的字段与MySql数据库的表的字段对应不上造成的。因此需要在执行的时候给sqoop增加参数,告诉sqoop文件的分隔符,使它能够正确的解析文件字段。hive默认的字段分隔符为'\001'
14
2020
11

三个datanode中当有一个datanode出现错误时会怎样?

Namenode会通过心跳机制感知到datanode下线会将这个datanode上的block块在集群中重新复制一份,恢复文件的副本数量会引发运维团队快速响应,派出同事对下线datanode进行检测和修复,然后重新上线
10
2020
11

数据的三范式

第一范式(1NF):强调的是列的原子性,即列不能够再分成其他几列。第二范式(2NF):首先是 1NF,另外包含两部分内容,一是表必须有一个主键;二是没有包含在主键中的列必须完全依赖于主键,而不能只依赖于主键的一部分,第二范式(2NF)属性完全依赖于主键  [消除部分子函数依赖] 第三范式(3NF):首先是 2NF,另外非主键列必须直接依赖于主键,不能存在传递依赖。即不能存在:非主键列 A 依赖于非主键列 B,非主键列 B 依赖于主键的情况。第三范式(3NF)属性不依赖于其它非
10
2020
11

List与Set的区别

List和Set都是接口。他们各自有自己的实现类,有无顺序的实现类,也有有顺序的实现类。最大的不同就是List是可以重复的。而Set是不能重复的。List适合经常追加数据,插入,删除数据。但随即取数效率比较低。Set适合经常地随即储存,插入,删除。但是在遍历时效率比较低。