7. spark使用中的优化-白红宇

7. spark使用中的优化

阅读量：4547 次

发布时间：2019-06-08

本文共 513 字，大约阅读时间需要 1 分钟。

spark的yarn模式优化

问题：每次spark on yarn时都要把spark/jars下的所有jar文件压缩，并上传到HDFS上的临时目录下

解决：上传jars中jar的压缩包到hdfs，并在spark-defaults.conf配置指定位置

入库优化

map、filter等是针对单个元素变换，

mapPartitions和mapPartitionsWithIndex是以分区为单位，元素通过迭代器组织在一起；对入库操作，如将数据写入mysql中，每个分区开启一个连接

数据倾斜：byKey操作

1、设计key，两次reduceByKey

2、随机分区，两次reduceByKey，较好

repartition 和 coalesce

rdd.repartition(n)调用的就是coalesce，始终进行shuffle操作。 如果是减少分区，推荐使用coalesce,可以指定是否进行shuffle操作，默认是false即不分区通过coalesce增加分区时，必须指定shuffle为true，否则分区数不变。

转载于:https://www.cnblogs.com/lybpy/p/9782880.html

你可能感兴趣的文章

（转）使用 python Matplotlib 库绘图

20165301 2017-2018-2 《Java程序设计》第四周学习总结

【SQL Server高可用性】高可用性概述

查看>>

通过SQL Server的扩展事件来跟踪SQL语句在运行时，时间都消耗到哪儿了？

spring-boot+nginx+tomcat+ssl配置笔记

查看>>

查找轮廓（cv2.findCountours函数）

查看>>

动态规划：插头DP

查看>>