您好、欢迎来到现金彩票网!
当前位置:秒速时时彩计划 > 随机归约 >

HadoopSpark大数据面试总结

发布时间:2019-06-16 08:15 来源:未知 编辑:admin

  首先map task会从本地文件系统读取数据,转换成key-value形式的键值对集合

  将键值对集合输入mapper进行业务处理过程,将其转换成需要的key-value在输出

  之后进行一个combiner归约操作,其实就是一个本地段的reduce预处理,以减小后面shufle和reducer的工作量

  reduce task会通过网络将各个数据收集进行reduce处理,最后将数据保存或者显示,结束整个job

  两者都是用mr模型来进行并行计算,hadoop的一个作业称为job,job里面分为map task和reduce task,每个task都是在自己的进程中运行的,当task结束时,进程也会结束

  这些job可以并行或串行执行,每个job中有多个stage,stage是shuffle过程中DAGSchaduler通过RDD之间的依赖关系划分job而来的,每个stage里面有多个task,组成taskset有TaskSchaduler分发到各个executor中执行,executor的生命周期是和app一样的,即使没有job运行也是存在的,所以task可以快速启动读取内存进行计算

  hadoop的job只有map和reduce操作,表达能力比较欠缺而且在mr过程中会重复的读写hdfs,造成大量的io操作,多个job需要自己管理关系

  spark的迭代计算都是在内存中进行的,API中提供了大量的RDD操作如join,groupby等,而且通过DAG图可以实现良好的容错

  flume可以实时的导入数据到hdfs中,当hdfs上的文件达到一个指定大小的时候会形成一个文件,或者超过指定时间的话也形成一个文件

  文件都是存储在datanode上面的,namenode记录着datanode的元数据信息,而namenode的元数据信息是存在内存中的,所以当文件切片很小或者很多的时候会卡死

  这是因为这几个reduce中的处理的数据要远远大于其他的reduce,可能是因为对键值对任务划分的不均匀造成的数据倾斜

  解决的方法可以在分区的时候重新定义分区规则对于value数据很多的key可以进行拆分、均匀打散等处理,或者是在map端的combiner中进行数据预处理的操作

  存的是和hdfs的映射关系,hive是逻辑上的数据仓库,实际操作的都是hdfs上的文件,HQL就是用sql语法来写的mr程序。

  source运行在日志收集节点进行日志采集,之后临时存储在chanel中,sink负责将chanel中的数据发送到目的地。

  可以将关系型数据库的数据导入非结构化的hdfs、hive或者bbase中,也可以将hdfs中的数据导出到关系型数据库或者文本文件中。

  import原理:通过指定的分隔符进行数据切分,将分片传入各个map中,在map任务中在每行数据进行写入处理没有reduce。

  export原理:根据要操作的表名生成一个java类,并读取其元数据信息和分隔符对非结构化的数据进行匹配,多个map作业同时执行写入关系型数据库

  列族:是创建表时指定的,为列的集合,每个列族作为一个文件单独存储,存储的数据都是字节数组,其中的数据可以有很多,通过时间戳来区分。

  物理模型:整个hbase表会拆分为多个region,每个region记录着行健的起始点保存在不同的节点上,查询时就是对各个节点的并行查询,当region很大时使用A表存储各个region的起始点,-ROOT又可以存储.META的起始点。

  rowkey的设计原则:各个列簇数据平衡,长度原则、相邻原则,创建表的时候设置表放入regionserver缓存中,避免自动增长和时间,使用字节数组代替string,最大长度64kb,最好16字节以内,按天分表,两个字节散列,四个字节存储时分毫秒。

  列族的设计原则:尽可能少(按照列族进行存储,按照region进行读取,不必要的io操作),经常和不经常使用的两类数据放入不同列族中,列族名字尽可能短。

  环境变量的设置:直接在/etc/profile中配置安装的路径即可,或者在当前用户的宿主目录下,配置在.bashrc文件中,该文件不用source重新打开shell窗口即可,配置在.bash_profile的话只对当前用户有效。

  首先肯定要保证集群的高可靠性,在高并发的情况下不会挂掉,支撑不住可以通过横向扩展。

  两者都是用mr模型来进行并行计算,hadoop的一个作业称为job,job里面分为map task和reduce task,每个task都是在自己的进程中运行的,当task结束时,进程也会结束。

  这些job可以并行或串行执行,每个job中有多个stage,stage是shuffle过程中DAGSchaduler通过RDD之间的依赖关系划分job而来的,每个stage里面有多个task,组成taskset有TaskSchaduler分发到各个executor中执行,executor的生命周期是和app一样的,即使没有job运行也是存在的,所以task可以快速启动读取内存进行计算。

  hadoop的job只有map和reduce操作,表达能力比较欠缺而且在mr过程中会重复的读写hdfs,造成大量的io操作,多个job需要自己管理关系。

  spark的迭代计算都是在内存中进行的,API中提供了大量的RDD操作如join,groupby等,而且通过DAG图可以实现良好的容错。

  flume可以实时的导入数据到hdfs中,当hdfs上的文件达到一个指定大小的时候会形成一个文件,或者超过指定时间的话也形成一个文件。

  文件都是存储在datanode上面的,namenode记录着datanode的元数据信息,而namenode的元数据信息是存在内存中的,所以当文件切片很小或者很多的时候会卡死。

  rdd分布式弹性数据集,简单的理解成一种数据结构,是spark框架上的通用货币。

  所有算子都是基于rdd来执行的,不同的场景会有不同的rdd实现类,但是都可以进行互相转换。

  (1)计算量大,形成的lineage过大应该给已经缓存了的rdd添加checkpoint,以减少容错带来的开销。

  (2)小分区合并,过小的分区造成过多的切换任务开销,使用repartition。

  相同group中的consumer不能重复消费事件,而同一事件将会发送给每个不同group的consumer。

  答:对于user-product-rating数据,als会建立一个稀疏的评分矩阵,其目的就是通过一定的规则填满这个稀疏矩阵。

  als会对稀疏矩阵进行分解,分为用户-特征值,产品-特征值,一个用户对一个产品的评分可以由这两个矩阵相乘得到。

  通过固定一个未知的特征值,计算另外一个特征值,然后交替反复进行最小二乘法,直至差平方和最小,即可得想要的矩阵。

  重新计算各个点到中心值的距离划分,再次计算平均值得到新的中心点,直至各个类别数据平均值无变化。

  计算其他数据点到其的距离,划入t1、t2中,划入t2的从数据集中删除,划入t1的其他数据点继续计算,直至数据集中无数据。

  对于待分类的数据和分类项,根据待分类数据的各个特征属性,出现在各个分类项中的概率判断该数据是属于哪个类别的。

  一个频繁项集的子集也是频繁项集,针对数据得出每个产品的支持数列表,过滤支持数小于预设值的项,对剩下的项进行全排列,重新计算支持数,再次过滤,重复至全排列结束,可得到频繁项和对应的支持数。

  1.1、 分配更多资源 1.1.1、分配哪些资源? Executor的数量 每个Executor所能分配的CPU数量 每个Executor所能分配的内存量 Driver端分配的内存数量 1.1.2、在哪里分配这些资源? 在生产环境中,提交spark作业时,用的spark-s...

  1、 性能调优 1.1、 分配更多资源 1.1.1、分配哪些资源? Executor的数量 每个Executor所能分配的CPU数量 每个Executor所能分配的内存量 Driver端分配的内存数量 1.1.2、在哪里分配这些资源? 在生产环境中,提交spark作业时,用...

  面试回来之后把其中比较重要的问题记了下来写了个总结: (答案在后面) 1、简答说一下hadoop的map-reduce编程模型 2、hadoop的TextInputFormat作用是什么,如何自定义实现 3、hadoop和spark的都是并行计算,那么他们有什么相同和区别 ...

  Zookeeper用于集群主备切换。 YARN让集群具备更好的扩展性。 Spark没有存储能力。 Spark的Master负责集群的资源管理,Slave用于执行计算任务。 Hadoop从2.x开始,把存储和计算分离开来,形成两个相对独立的子集群:HDFS和YARN,MapR...

  昨晚,某电影时尚影响力盛典在上海大剧院隆重举行,当红艺人马可、孙艺洲、郭品超、郑雅文等出席了该活动。盛典当晚,实力派小花旦郑雅文惊艳亮相红毯,蜜桃粉俏皮短发格外瞩目,一袭薄纱长裙仙气飘飘,配以粉嫩花鸟和绿叶图案,宛如花中仙子徐徐走来,小露性感锁骨和美背,修长纤细的身材一览无...

  7.22 第一周心得 一周的培训时间,虽然短暂,但是给我带来了极大的转变。 两天的培训课程让我对中洲有了基础性的了解。公司的基本情况、人力资源制度、中洲企业文化、公司五年发展战略、房地产开发的全流程、房地产营销管理等课程为我建立了一个房地产行业的总体框架。在这两天的课程...

  一个时代不可能 就这样卑鄙地结束 暴虐的风车还在 那些戴着镣铐的人 需要我们去解放 像骑士一样去战斗 不只是为了爱情 梦想还是要的 万一实现了呢 为了桑丘的海岛 为了等待我的城堡 我不能停下长矛 那是激活这个时代 唯一的方式

  段子哥今天讲一个人类第一次登月前,阿姆斯特朗从原住民那里得到一个神秘口信的故事。 1969年7月20日,美国宇航员阿姆斯特朗和他的队员登上了月球表面。 登陆前几个月,阿波罗11号的所有宇航员都在美国西部的一个类似月球的沙漠环境中受训。那里正好是几个美国原住民部落的居住地。某...

  最近几天在零零碎碎阅读着《阅读是一座随身携带的避难所:毛姆读书笔记》。毛姆写的很生动,很丰满,很有生气,因为每一位作者他几乎都会讲他们细枝末节的生活,或成长趣事,或八卦私事,每一个看似娱乐的内容其实都有一种探索,这些生活化的文豪们,究竟是如何成为文豪的,他们的这些生活内容是...

http://parroche-dorioz.com/suijiguiyue/171.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有