《大数据面试反馈反思》PDF -管理资源网

首页 > 资料专栏 > HRM > 人力资源 > 面试甄选 > 《大数据面试反馈反思》PDF

《大数据面试反馈反思》PDF

jnxtd: V 实名认证

内容提供者

联系反馈

热门搜索

大数据

资料大小：198KB(压缩后)
文档格式：PDF(6页)
资料语言：中文版/英文版/日文版
解压密码：m448
更新时间：2024/11/10(发布于山东)

类型：积分资料
积分：10分 (VIP无积分限制)
推荐：免费申请

下载地址

文档软件 | 转换工具

==>> 点击下载文档

相关下载

推荐资料

文本描述

大数据面试反馈反思面试反馈反思：面试公司：特斯联-大数据开发工程师 1：yarn？参考博客(Hadoop MapReduceV2(Yarn) 框架简介)： ibm/developerworks/cn/opensource/os-cn-hadoop-yarn/ 答题思路：解决MapReduce1.0版本的JobTracker/TaskTracker难于扩展的问题，解耦它的资源调度和任务的调度，因此产生了yarn，既MapReduce2.0版本：MapReduceV2或者叫Yarn 一个应用程序是如何在yarn上执行的？ 2：Spark的运行模式 Local(N):N表示线程数 Spark on standalone standalone-client: tandalone-client: spark on yarn yarn-Client: yarn-cluster: 3：机器学习：梯度下降求解机器学习算法的模型参数，梯度下降（Gradient Descent）是最常采用的方法之一，另一种常用的方法是最小二乘法在机器学习算法中，在最小化损失函数时，可以通过梯度下降法来一步步的迭代求解，得到最小化的损失函数，和模型参数值面试公司：多牛传媒-多牛传媒spark工程师多牛传媒面试题解析：三人面试（人事，spark开发，部门总监），面试时间1.5小时人事让介绍自己，为什么想换工作答：请参考自我介绍，换工作的理由：1：找一个更大的平台，能够有更大的发展空间；2：准备买房结婚了，希望找一个薪资待遇更好的工作总监问sparksql和sparkstreaming哪个比较熟答：都还行，SparkSql的DataFrame或者DataSet和SparkStreaming的DStream都是基于SparkCore的，最终都会转化为Spark task执行。我们可以交流一下本质的东西SparkCore，而 SparkCore的核心又是RDD。开发问可以说一下sparkshuffle吗？答：Spark的shuffle也是一处理问题的思想：分而治之。shuffle一般称为洗牌，一般会有Shuffle Write阶段和Shuffle Read阶段。在Spark中实现Shuffle的方式有两种，一种是 HashShuffle，一种是SortShuffle。Ｓｈｕｆｆｌｅ的性能是影响Ｓｐａｒｋ应用程序性能的关键。Ｓｈｕｆｆｌｅ发生在Ｓｔａｇｅ之间，Ｓｔａｇｅ中用的ｐｉｐｌｉｎｅ的计算模式。 HashShuffle又有实现又有2种机制： 1：HashShuffle的普通机制，画图，HashShuffle的普通机制的问题 2：HashShuffle合并机制，画图，解决了的问题 SortShuffle实现也有2种机制： 1：SortShuffle的普通机制，出现的问题，画图 2：SortShuffle的ByPass机制，细节。 Spark Shuffle的数据位置定位和拉取数据的组件：主：MapOutputTrackerMaster---存在Driver进程中从：MapOutputTrackerWorker---存在Executor进程中 BlockManager组件：块管理者 BlockManagerMaster：存在Driver中 1：DiskStore：负责磁盘的管理 2：MemStore：负责内存的管理 3：ConnectionManager：负责连接其他的BlockManagerSlave 4：BlockTransforService ：负责数据的传输 Spark Shuffle的调优点： 1：Shuffle的选择 2：缓冲区的大小 3：拉去的数据量的大小 4：间隔时间重试次数开发问缓存这