会员中心     
首页 > 资料专栏 > HRM > 人力资源 > 面试甄选 > 《大数据面试反馈反思》PDF

《大数据面试反馈反思》PDF

jnxtd
V 实名认证
内容提供者
热门搜索
大数据
资料大小:198KB(压缩后)
文档格式:PDF(6页)
资料语言:中文版/英文版/日文版
解压密码:m448
更新时间:2024/11/10(发布于山东)

类型:积分资料
积分:10分 (VIP无积分限制)
推荐:免费申请

   点此下载 ==>> 点击下载文档


“《大数据面试反馈反思》PDF”第1页图片 图片预览结束,如需查阅完整内容,请下载文档!
文本描述
大数据面试反馈反思 面试反馈反思: 面试公司:特斯联-大数据开发工程师 1:yarn? 参考博客(Hadoop MapReduceV2(Yarn) 框架简介): ibm/developerworks/cn/opensource/os-cn-hadoop-yarn/ 答题思路:解决MapReduce1.0版本的JobTracker/TaskTracker难于扩展的问题,解耦它的资源调度和任务的调度,因此产生了yarn,既MapReduce2.0版本:MapReduceV2或者叫Yarn 一个应用程序是如何在yarn上执行的? 2:Spark的运行模式 Local(N):N表示线程数 Spark on standalone standalone-client: tandalone-client: spark on yarn yarn-Client: yarn-cluster: 3:机器学习:梯度下降 求解机器学习算法的模型参数,梯度下降(Gradient Descent)是最常采用的方法之一,另一种常用的方法是最小二乘法 在机器学习算法中,在最小化损失函数时,可以通过梯度下降法来一步步的迭代求解,得到最小化的损失函数,和模型参数值 面试公司:多牛传媒-多牛传媒spark工程师 多牛传媒面试题解析: 三人面试(人事,spark开发,部门总监),面试时间1.5小时 人事让介绍自己,为什么想换工作 答:请参考自我介绍,换工作的理由:1:找一个更大的平台,能够有更大的发展空间;2:准备买房结婚了,希望找一个薪资待遇更好的工作 总监问sparksql和sparkstreaming哪个比较熟 答:都还行,SparkSql的DataFrame或者DataSet和SparkStreaming的DStream都是基于SparkCore的,最终都会转化为Spark task执行。我们可以交流一下本质的东西SparkCore,而 SparkCore的核心又是RDD。 开发问可以说一下sparkshuffle吗? 答:Spark的shuffle也是一处理问题的思想:分而治之。shuffle一般称为洗牌,一般会有Shuffle Write阶段和Shuffle Read阶段。在Spark中实现Shuffle的方式有两种,一种是 HashShuffle,一种是SortShuffle。Shuffle的性能是影响Spark应用程序性能的关键。Shuffle发生在Stage之间,Stage中用的pipline的计算模 式。 HashShuffle又有实现又有2种机制: 1:HashShuffle的普通机制,画图,HashShuffle的普通机制的问题 2:HashShuffle合并机制,画图,解决了的问题 SortShuffle实现也有2种机制: 1:SortShuffle的普通机制,出现的问题,画图 2:SortShuffle的ByPass机制,细节。 Spark Shuffle的数据位置定位和拉取数据的组件: 主:MapOutputTrackerMaster---存在Driver进程中 从:MapOutputTrackerWorker---存在Executor进程中 BlockManager组件:块管理者 BlockManagerMaster:存在Driver中 1:DiskStore:负责磁盘的管理 2:MemStore:负责内存的管理 3:ConnectionManager:负责连接其他的BlockManagerSlave 4:BlockTransforService :负责数据的传输 Spark Shuffle的调优点: 1:Shuffle的选择 2:缓冲区的大小 3:拉去的数据量的大小 4:间隔时间重试次数 开发问缓存这