博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
7. spark使用中的优化
阅读量:4547 次
发布时间:2019-06-08

本文共 513 字,大约阅读时间需要 1 分钟。

spark的yarn模式优化

问题:每次spark on yarn时都要把spark/jars下的所有jar文件压缩,并上传到HDFS上的临时目录下

解决:上传jars中jar的压缩包到hdfs,并在spark-defaults.conf配置指定位置

 

入库优化

map、filter等是针对单个元素变换,

mapPartitions和mapPartitionsWithIndex是以分区为单位,元素通过迭代器组织在一起;对入库操作,如将数据写入mysql中,每个分区开启一个连接

 

数据倾斜:byKey操作

1、设计key,两次reduceByKey

2、随机分区,两次reduceByKey,较好

 

repartition 和 coalesce

rdd.repartition(n)调用的就是coalesce,始终进行shuffle操作。 如果是减少分区,推荐使用coalesce,可以指定是否进行shuffle操作,默认是false即不分区通过coalesce增加分区时,必须指定shuffle为true,否则分区数不变。

  

转载于:https://www.cnblogs.com/lybpy/p/9782880.html

你可能感兴趣的文章
(转)使用 python Matplotlib 库绘图
查看>>
进程/线程切换原则
查看>>
正则表达式语法
查看>>
20165301 2017-2018-2 《Java程序设计》第四周学习总结
查看>>
Vue的简单入门
查看>>
使用最快的方法计算2的16次方是多少?
查看>>
urllib 中的异常处理
查看>>
【SQL Server高可用性】高可用性概述
查看>>
通过SQL Server的扩展事件来跟踪SQL语句在运行时,时间都消耗到哪儿了?
查看>>
SQL优化:重新编译存储过程和表
查看>>
PCB“有铅”工艺将何去何从?
查看>>
Solr环境搭建
查看>>
IE兼容性的一些。。
查看>>
第二章-递归与分治策略
查看>>
快速排查SQL服务器阻塞语句
查看>>
推荐系统常用数据集
查看>>
stack
查看>>
spring-boot+nginx+tomcat+ssl配置笔记
查看>>
查找轮廓(cv2.findCountours函数)
查看>>
动态规划:插头DP
查看>>