最近更新时间:2025-02-28 11:23:17
本文将为您介绍Serverless 计算引擎和KS3中的一些常用参数说明及调优建议。
参数 | 说明 | 默认值 |
---|---|---|
fs.ks3.socket.timeout | 连接ks3 socket超时阈值,单位:毫秒(ms)。 网络不稳定或延迟时,适当增加此值可保持连接稳定性。 | 65000 |
fs.ks3.request.socket.err.retry.times | 读取ks3文件时socket 失败重试次数。 访问ks3如果发生IO异常时重试次数,其他异常不受此参数控制。 | 5 |
fs.ks3.request.attempts.maximum | 状态码异常时的最大重试次数。 在ks3服务端压力过大时,返回非200的状态码,可适当增加重试次数提升作业运行成功率。 | 5 |
fs.ks3.connection.maximum | ks3的HTTP连接池大小。 客户端连接ks3使用了HTTP连接池,可以根据以下指标粗略计算。 连接池大小≈QPS×平均响应时间(秒)
根据QPS和平均响应时间进行调整,以优化资源利用和响应时间。 | 1024 |
参数 | 说明 | 默认值 |
---|---|---|
fs.ks3.copy.total.limit.size | 使用copy加速的文件大小上限,单位:字节(byte)。 ks3提供了加速copy策略,超过此参数阈值将使用普通copy part 分块。 | 1073741824字节 (1GB) |
fs.ks3.check.subdir.inx.getfilestatus | list key操作时,是否将key作为目录再次进行list操作。 在ks3中没有目录的概念,因此无法通过key直接区分是文件还是目录,默认情况下均按照文件来处理。修改此参数会将key作为目录增加一次list操作。 | false |
参数 | 说明 | 默认值 |
---|---|---|
parallel.upload.part.thread.size | 多线程上传启动的线程数。 当客户端面临大量并发上传请求时,可能会对KS3服务造成较大的上传压力,进而导致作业失败。为了合理控制线程数量,可根据以下指标进行估算: 线程数≈文件大小/分块大小。 注意:如果线程数太多,将导致线程之间争抢带宽,上传效率不一定提升。 | 8 |
fs.ks3.multipart.uploads.block.size | 上传分块大小,单位:字节(byte)。 建议设置为5MB的整数倍,以匹配KS3的存储分块大小。 | 31457280字节 (30MB) |
fs.ks3.multipart.uploads.sleep.bound | 上传文件分块之间的间隔时间,单位:秒(s)。 通过增加间隔,可以减轻KS3的上传压力,每个请求将会等待random(1, bound) 秒。 | -1(关闭) |
fs.ks3.read.ahead.block.size | 下载文件分块大小,单位:字节(byte)。 在多线程并行下载文件的场景中,通过设置这个参数,可以利用HTTP的 | 1048576字节 (1MB) |
fs.ks3.io.thread.pool.maxSize | 下载文件并行线程数。 文件越大,多线程下载的收益越明显,文件可以分块并行下载;文件较小(< 1 MB)时,更适合单线程或少量线程,多线程的启动和调度开销可能超过收益。 | 2*核数 |
参数 | 说明 | 默认值 |
---|---|---|
spark.default.parallelism | RDD 操作的默认并行度。 | 200 |
spark.sql.shuffle.partitions | 控制 SQL 查询和 DataFrame 操作中 shuffle 阶段的分区数 | 200 |
conf spark.kubernetes.memoryOverheadFactor=0.1 \
conf spark.hadoop.fs.ks3.check.subdir.in.getfilestatus=true \
conf spark.hadoop.fs.ks3.multipart.uploads.sleep.bound=15 \
conf spark.hadoop.fs.ks3.parallel.upload.part.thread.size=4 \
conf spark.hadoop.fs.ks3.multipart.uploads.block.size=157286400 \
conf spark.hadoop.fs.ks3.io.thread.pool.maxSize=10 \
conf spark.hadoop.fs.ks3.read.ahead.block.size=104857600 \
纯净模式