tencent cloud

文档反馈

消息压缩

最后更新时间:2024-01-03 14:27:38

    背景描述

    由于 Pulsar 限制消息最大为5MB,消息体过大将会导致消息发送失败。这时需要客户端将大消息进行压缩,以支持20MB大小的消息体发送。

    Pulsar 大消息处理

    Pulsar 的消息最大限制默认是 5MB,Producer 发送的消息大小超过5MB会导致消息发送失败。如果客户端发送单条消息大小超过该限制,我们可以采用如下两种方式来处理:
    Chunk Message:Plusar 提供 Chunk Message 功能,开启 Chunk 机制时,客户端能够自动对大消息进行拆分,并保证消息的完整性,在 Consumer 能自动整合消息。
    压缩消息:主要是对消息数据中相同字符序列进行替换,来压缩消息的大小。Pulsar 支持 LZ4、ZLIB、ZSTD、SNAPPY 四种压缩算法。
    我们这里推荐压缩消息对大消息进行处理。

    压缩算法分析比较

    算法介绍

    LZ4
    LZ4 是一种无损数据压缩算法,可以提供极快的压缩和解压缩速度,对于 CPU 占用少。
    ZLIB
    ZLIB 压缩算法是一种常用的无损数据压缩技术,它可以有效地减少收发数据的大小,从而提高网络传输效率和网络容量。ZLIB 压缩算法是基于 Lempel-Ziv 压缩算法的一种变体,可以将原始数据压缩到原来的一半大小以下,并且支持压缩和解压缩操作。
    ZSTD
    ZSTD 压缩算法是一种 Huffman 编码的压缩算法,是 LZ77 的一种变种,可以针对不同数据进行有效压缩。它是一种实时编码算法,在处理大数据时可以更快速、更高效地压缩数据。相比其他压缩算法,ZSTD 在提高数据压缩率的同时兼顾压缩速度。
    SNAPPY
    SNAPPY 压缩是一种无损压缩技术,它依赖于 LZ77 原理来实现压缩效果。SNAPPY 压缩的核心原理是:只要数据流找到两个字符串之间的重复,就会用一组更短的代码来表示这个字符串,这样就可以减少数据流的大小。

    算法对比

    压缩算法
    压缩比
    压缩速度
    解压速度
    ZLIB 1.2.11 -1
    2.743
    110MB/S
    400MB/S
    LZ4 1.8.1
    2.101
    750MB/S
    3700MB/S
    ZSTD 1.3.4-1
    2.877
    470MB/S
    1380MB/S
    SNAPPY 1.1.4
    2.091
    530MB/S
    1800MB/S
    吞吐量:LZ4 > SNAPPY > ZSTD > ZLIB
    压缩比:ZSTD > ZLIB > LZ4 > SNAPPY
    物理资源方面,SNAPPY 算法占用的网络带宽最多,ZSTD 算法占用的网络带宽最少。

    各压缩算法测试

    测试结果

    注意:
    以下测试结果仅供参考。压缩效果,需要根据具体消息体内容来验证。
    消息大小
    消息
    压缩算法
    topic 监控消息大小
    客户端消息压缩耗时
    消息发送耗时
    5M
    随机消息体
    LZ4(阀值5MB)
    9.95MB
    31ms
    0.049ms
    ZLIB
    7.26MB
    31ms
    0.038ms
    ZSTD
    8.20MB
    31ms
    0.039ms
    SNAPPY(阀值5MB)
    9.70MB
    33ms
    0.046ms
    6M
    随机消息体
    ZLIB(阀值6MB)
    8.71MB
    35ms
    0.044ms
    ZSTD(阀值6MB)
    9.84MB
    35ms
    0.046ms
    20M
    相同消息体
    LZ4
    0.16MB
    41ms
    0.006ms
    ZLIB
    0.20MB
    42ms
    0.006ms
    ZSTD
    0.01MB
    42ms
    0.003ms
    SNAPPY
    2.47MB
    41ms
    0.021ms
    40M
    相同消息体
    LZ4
    0.32MB
    123ms
    0.008ms
    ZLIB
    0.39MB
    122ms
    0.008ms
    ZSTD
    0.01MB
    124ms
    0.004ms
    SNAPPY
    4.95MB
    123ms
    0.036ms
    80M
    相同消息体
    LZ4
    0.63MB
    241ms
    0.009ms
    ZLIB
    0.39MB
    244ms
    0.01ms
    ZSTD
    0.01MB
    243ms
    0.004ms
    SNAPPY(阀值80M)
    9.9MB
    243ms
    0.056ms
    160M
    相同消息体
    LZ4
    1.26MB
    484ms
    0.013ms
    ZLIB
    1.56MB
    479ms
    0.016ms
    ZSTD
    0.03MB
    481ms
    0.004ms
    320M
    相同消息体
    LZ4
    2.5MB
    1035ms
    0.03ms
    ZLIB
    3.1MB
    1008ms
    0.027ms
    ZSTD
    0.03MB
    949ms
    0.004ms
    585M
    相同消息体
    LZ4
    4.59MB
    1705ms
    0.027ms
    ZLIB
    5.67MB
    1733ms
    0.03ms
    ZSTD
    0.11MB
    1722ms
    0.006ms
    总结:
    在纯随机数据流中,四种压缩算法压缩效率都不是很高。消息大小超过5MB,四种压缩算法都无法将消息压缩到5MB以内。
    在重复数据较多的数据流中,四种压缩算法可以实现很高的压缩速率,其中 LZ4、ZLIB、ZSTD 压缩算法可以实现将600MB内的消息压缩到5MB以内。

    消息压缩 Demo 及使用测试

    消息压缩 Demo 可参见:tdmq-sdk-demo

    使用测试

    生产端调用参数:
    java -jar tdmq-sdk-demo-1.0-SNAPSHOT-jar-with-dependencies.jar pulsar://xxxx:6650 
    eyJrZXlJZCI6ImRlZmF1bHRfa2V5SWQiLCJhbGciOiJIUzI1NiJ9.eyJzdWIiOiJzdXBlcnVzZXIifQ.dYcCfp4XrdWRKdKaWylobY-_xEExfRCi1pMvNyZXbqU
    pulsar-78ra8ownxb7d/BigMSGSpace/BigMSGTopic subname 1 500 0 1 20480 1 0
    消费端调用参数:
    java -jar tdmq-sdk-demo-1.0-SNAPSHOT-jar-with-dendencies.jar pulsar://xxxx:6650 
    eyJrZXlJZCI6ImRlZmF1bHRfa2V5SWQiLCJhbGciOiJIUzI1NiJ9.eyJzdWIiOiJzdXBlcnVzZXIifQ.dYcCfp4XrdWRKdKaWylobY-_xEExfRCi1pMvNyZXbqU 
    pulsar-92d7w2mjwmv9/BigMessSpace/BigMessTopic subname 1 500 1
    
    联系我们

    联系我们,为您的业务提供专属服务。

    技术支持

    如果你想寻求进一步的帮助,通过工单与我们进行联络。我们提供7x24的工单服务。

    7x24 电话支持