全部文档
当前文档

暂无内容

如果没有找到您期望的内容,请尝试其他搜索词

文档中心

常用参数调优

最近更新时间:2025-02-28 11:23:17

本文将为您介绍Serverless 计算引擎和KS3中的一些常用参数说明及调优建议。

连接和重试参数

参数

说明

默认值

fs.ks3.socket.timeout

连接ks3 socket超时阈值,单位:毫秒(ms)。

网络不稳定或延迟时,适当增加此值可保持连接稳定性。

65000

fs.ks3.request.socket.err.retry.times

读取ks3文件时socket 失败重试次数。

访问ks3如果发生IO异常时重试次数,其他异常不受此参数控制。

5

fs.ks3.request.attempts.maximum

状态码异常时的最大重试次数。

在ks3服务端压力过大时,返回非200的状态码,可适当增加重试次数提升作业运行成功率。

5

fs.ks3.connection.maximum

ks3的HTTP连接池大小。

客户端连接ks3使用了HTTP连接池,可以根据以下指标粗略计算。

连接池大小≈QPS×平均响应时间(秒)

  • 过小:导致请求等待连接,增加响应时间。

  • 过大:浪费资源,占用过多的线程或文件描述符。

根据QPS和平均响应时间进行调整,以优化资源利用和响应时间。

1024

文件操作参数

参数

说明

默认值

fs.ks3.copy.total.limit.size

使用copy加速的文件大小上限,单位:字节(byte)。

ks3提供了加速copy策略,超过此参数阈值将使用普通copy part 分块。

1073741824字节 (1GB)

fs.ks3.check.subdir.inx.getfilestatus

list key操作时,是否将key作为目录再次进行list操作。

在ks3中没有目录的概念,因此无法通过key直接区分是文件还是目录,默认情况下均按照文件来处理。修改此参数会将key作为目录增加一次list操作。

false

上传和下载参数

参数

说明

默认值

parallel.upload.part.thread.size

多线程上传启动的线程数。

当客户端面临大量并发上传请求时,可能会对KS3服务造成较大的上传压力,进而导致作业失败。为了合理控制线程数量,可根据以下指标进行估算:

线程数≈文件大小/分块大小。

注意:如果线程数太多,将导致线程之间争抢带宽,上传效率不一定提升。

8

fs.ks3.multipart.uploads.block.size

上传分块大小,单位:字节(byte)。

建议设置为5MB的整数倍,以匹配KS3的存储分块大小。

31457280字节

(30MB)

fs.ks3.multipart.uploads.sleep.bound

上传文件分块之间的间隔时间,单位:秒(s)。

通过增加间隔,可以减轻KS3的上传压力,每个请求将会等待random(1, bound) 秒。

-1(关闭)

fs.ks3.read.ahead.block.size

下载文件分块大小,单位:字节(byte)。

在多线程并行下载文件的场景中,通过设置这个参数,可以利用HTTP的range请求特性,将文件分成多个部分(分块)进行下载,从而提高文件的读取速度。
建议设置为5MB的整数倍,以匹配KS3的存储分块大小。

1048576字节

(1MB)

fs.ks3.io.thread.pool.maxSize

下载文件并行线程数。

文件越大,多线程下载的收益越明显,文件可以分块并行下载;文件较小(< 1 MB)时,更适合单线程或少量线程,多线程的启动和调度开销可能超过收益。

2*核数

Spark参数

参数

说明

默认值

spark.default.parallelism

RDD 操作的默认并行度。

200

spark.sql.shuffle.partitions

控制 SQL 查询和 DataFrame 操作中 shuffle 阶段的分区数

200

参数调整示例

conf spark.kubernetes.memoryOverheadFactor=0.1 \

conf spark.hadoop.fs.ks3.check.subdir.in.getfilestatus=true \ 

conf spark.hadoop.fs.ks3.multipart.uploads.sleep.bound=15 \ 

conf spark.hadoop.fs.ks3.parallel.upload.part.thread.size=4 \ 

conf spark.hadoop.fs.ks3.multipart.uploads.block.size=157286400 \ 

conf spark.hadoop.fs.ks3.io.thread.pool.maxSize=10 \ 

conf spark.hadoop.fs.ks3.read.ahead.block.size=104857600 \ 

纯净模式常规模式

纯净模式

点击可全屏预览文档内容