17
2021
02

当前日志采样格式为 a , b , c , d b , b , f , e a , a , c , f 请你用最熟悉的语言编写mapreduce,计算第四列每个元素出现的个数

答:public classWordCount1 {public static final String INPUT_PATH ="hdfs://hadoop0:9000/in";public static final String OUT_PATH ="hdfs://hadoop0:9000/out";public static void main(String[] args)throws Exception {Configuration conf =
17
2021
02

请列出正常的hadoop集群中hadoop都分别需要启动哪些进程,他们的作用分别都是什么,请尽量列的详细一些。

namenode:负责管理hdfs中文件块的元数据,响应客户端请求,管理datanode上文件block的均衡,维持副本数量Secondname:主要负责做checkpoint操作;也可以做冷备,对一定范围内数据做快照性备份。Datanode:存储数据块,负责客户端对数据块的io请求Jobtracker:管理任务,并将任务分配给tasktracker。Tasktracker:执行JobTracker分配的任务。Resourcemanager、Nodemanager、Journalnode、Zoo
17
2021
02

zookeeper 是如何保证数据一致性的

ZooKeeper是个集群,内部有多个server,每个server都可以连接多个client,每个client都可以修改server中的数据ZooKeeper可以保证每个server内的数据完全一致,是如何实现的呢?答:数据一致性是靠Paxos算法保证的,Paxos可以说是分布式一致性算法的鼻祖,是ZooKeeper的基础Paxos的基本思路:(深入解读zookeeper一致性原理)假设有一个社团,其中有团员、议员(决议小组成员)两个角色团员可以向议员申请提案来修改社团制度议员坐在一起,拿出自
17
2021
02

怎么解决 Kafka 数据丢失的问题

1)消费端弄丢了数据唯一可能导致消费者弄丢数据的情况,就是说,你那个消费到了这个消息,然后消费者那边自动提交了offset,让kafka以为你已经消费好了这个消息,其实你刚准备处理这个消息,你还没处理,你自己就挂了,此时这条消息就丢咯。这不是一样么,大家都知道kafka会自动提交offset,那么只要关闭自动提交offset,在处理完之后自己手动提交offset,就可以保证数据不会丢。但是此时确实还是会重复消费,比如你刚处理完,还没提交offset,结果自己挂了,此时肯定会重复消费一次,自己保证
17
2021
02

请说明hive中SortBy、OrderBy、ClusterBy,DistributeBy各代表什么意思?

答案:orderby:会对输入做全局排序,因此只有一个reducer(多个reducer无法保证全局有序)。只有一个reducer,会导致当输入规模较大时,需要较长的计算时间。sortby:不是全局排序,其在数据进入reducer前完成排序。distributeby:按照指定的字段对数据进行划分输出到不同的reduce中。clusterby:除了具有distributeby的功能外还兼具sortby的功能。
17
2021
02

.hdfs写文件的步骤

答案:(1)client向NameNode申请上传…/xxx.txt文件(2)NN向client响应可以上传文件(3)Client向NameNode申请DataNode(4)NN向Client返回DN1,DN2,DN3(5)Client向DN1,DN2,DN3申请建立文件传输通道(6)DN3,DN2,DN1依次响应连接(7)Client向DN1上传一个block,DN1向DN2,DN3冗余文件
21
2021
01

您对“大数据”一词有何了解?

答: 大数据是与复杂和大型数据集相关的术语。关系数据库无法处理大数据,这就是使用特殊工具和方法对大量数据执行操作的原因。大数据使公司能够更好地了解其业务,并帮助他们从定期收集的非结构化和原始数据中获取有意义的信息。大数据还允许公司采取数据支持的更好的业务决策。