文本描述
本文档来自公众号@五分钟学大数据 盗版必究 目录 前言 .......... 8 Hadoop ............... 9 1. 请说下HDFS读写流程 ........9 2.HDFS在读取文件的时候,如果其中一个块突然损坏了怎么办 ..10 3.HDFS在上传文件的时候,如果其中一个DataNode突然挂掉了怎么办 .. 10 4.NameNode在启动的时候会做哪些操作 ........ 11 5.SecondaryNameNode了解吗,它的工作机制是怎样的 .. 11 6.SecondaryNameNode不能恢复NameNode的全部数据,那如何保证NameNode 数据存储安全 .......... 12 7. 在NameNodeHA中,会出现脑裂问题吗?怎么解决脑裂 ......13 8. 小文件过多会有什么危害,如何避免 .........14 9. 请说下HDFS的组织架构 .....14 10. 请说下MR中MapTask的工作机制 ......... 15 11. 请说下MR中ReduceTask的工作机制 .......16 12. 请说下MR中Shuffle阶段 .......... 17 13.Shuffle阶段的数据压缩机制了解吗 .......... 18 14. 在写MR时,什么情况下可以使用规约 ......18 15.YARN集群的架构和工作原理知道多少 ...... 18 16.YARN的任务提交流程是怎样的 ..... 19 17.YARN的资源调度三种模型了解吗 .......... 20 Hive ......... 21 1.Hive内部表和外部表的区别 .......... 21 2.Hive有索引吗 ........ 21 3. 运维如何对Hive进行调度 ........... 22 4.ORC、Parquet等列式存储的优点 ......22 5. 数据建模用的哪些模型? .....23 1. 星型模