【💊 Python的解憂錦囊】kafka訊息量太大、queue竟然是空的？

2024/06/21 更新2024/06/21 發佈閱讀 3 分鐘

情境描述

我們在「🔒 阿Han的軟體心法實戰營 - kafka」有關於kafka的教學文章，那麼在開發過程中我們遇到了 👻 詭異事件，那就是我們嘗試在做一個檔案串流時，發現Producer明明傳送了大約16MB檔案大小的封包到kafka，每一包約(1024 * 1024 ) bytes，但奇怪的是kafka的查詢介面裡卻只有發現到大約 953KB的訊息…，照理來說應該要有10幾包才對呀！

程式碼片段

我們透過open file 來讀取檔案並且設定一包讀取 1024 * 1024 bytes大小的封包送到kafka，就以程式碼來看完全沒有錯誤呀！怎麼會沒有訊息咧？


bootstrap_servers = ["localhost:9092"]
topic_name = "file-stream"
chunk_size = 1024 * 1024  # 1 MB
def send_file(filename):
    # Create a producer
    producer = kafka.KafkaProducer(bootstrap_servers=bootstrap_servers)

    # Read the file in chunks
    with open(filename, "rb") as f:
        while True:
            # Read a chunk of data from the file
            chunk = f.read(chunk_size)

            # If the chunk is empty, break the loop
            if not chunk:
                break

            print(f"send: {len(chunk)}")
            # Send the chunk to Kafka
            producer.send(topic_name, key=bytes(filename, 'utf-8'), value=chunk)

    # Flush the producer to ensure all messages are sent
    producer.flush()

問題釐清思路

我們試著讀第一包並break跳出，觀察看看，發現一樣沒有訊息。
我們試著將chunk_size設定成1024 bytes，結果有訊息。
十有八九就是訊息量太大了…
接著我們就試著問問Gemini，怎麼問會比較好歡迎參考「【Prompt Engineering 提示工程】Ep.1 什麼是Prompt Engineering?」，
1. Q: 請問kafka為什麼送超過1MB大小的訊息就被阻擋？
2. A: Kafka 默認將訊息大小限制在 1MB 以內。

原因

Kafka 主題中每個訊息的預設限制為 1MB，這是因為非常大的消息被認為是低效的。

怎麼解決？

將封包切於10MB以內：較佳解，因為減少傳遞封包的耗損。
透過建立topic時設定大小，詳細請參考：How to send Large Messages in Apache Kafka?

結語

原來kafka很多背景知識需要了解，常常我們會在實作的過程中慢慢發現，就讓我們一步步探索kafka的奧妙吧！也歡迎訂閱「🔒 阿Han的軟體心法實戰營」一起學習軟體相關的知識與疑難雜症。

阿Han的沙龍阿Han的軟體技術棧 💡python

留言

留言分享你的想法！

阿Han的沙龍

141會員

307內容數

哈囉，我是阿Han，是一位 👩‍💻 軟體研發工程師，喜歡閱讀、學習、撰寫文章及教學，擅長以圖代文，化繁為簡，除了幫助自己釐清思路之外，也希望藉由圖解的方式幫助大家共同學習，甚至手把手帶您設計出高品質的軟體產品。

阿Han的沙龍的其他內容

2025/01/29

【💊 Python的解憂錦囊】Enum也可以很靈活 - 動態模板字串

🤔 簡單且靜態就足夠了？相信我們在開發Python應用程式的過程中，常常會借用Enum來定義我們可能的選項，就像顏色紅、綠、黃會有這樣的結構： class Color(str, Enum): RED = 'red' GREED = 'green' YELLOW = 'yel

2025/01/29

【💊 Python的解憂錦囊】Enum也可以很靈活 - 動態模板字串

2025/01/08

【💊 Python的解憂錦囊】既能管理環境變數又能驗證的pydantic

當我們的系統發展到一定程度時，難免會面臨到正式上線的問題，要如何讓維運更加簡易呢？尤其隨著複雜的客製化配置的出現時，我們應該如何有效的管理，甚至驗證配置是否如預期資料型態、格式…，而正好 pydantic 可以滿足這樣的需求，就讓我們來看看怎麼使用吧！需安裝的套件 pip i

2025/01/08

【💊 Python的解憂錦囊】既能管理環境變數又能驗證的pydantic

2025/01/02

【💊 Python的解憂錦囊 - FastAPI】多個worker如何共享數據？

要如何使用unicorn啟動多個FastAPI服務，歡迎參考我們的「【💊 Python的解憂錦囊 - FastAPI】如何啟動多個Workers」。當我們試著設計帶入模組化時… 我們在「【💊 Python的解憂錦囊 - FastAPI】使用 lifespan 來共享資料與管理生命週期

2025/01/02

【💊 Python的解憂錦囊 - FastAPI】多個worker如何共享數據？

看更多

你可能也想看

夢夢 🍰 甜點魔法

全家限定！療癒系馬來貘雪糕，創意吃法大公開｜豆漿燕麥碗、藍莓果昔

還在煩惱平凡日常該如何增添一點小驚喜嗎？全家便利商店這次聯手超萌的馬來貘，推出黑白配色的馬來貘雪糕，不僅外觀吸睛，層次豐富的雙層口味更是讓人一口接一口！本文將帶你探索馬來貘雪糕的多種創意吃法，從簡單的豆漿燕麥碗、藍莓果昔，到大人系的奇亞籽布丁下午茶，讓可愛的馬來貘陪你度過每一餐，增添生活中的小確幸！

#懶人料理#食譜#健康甜點

2025/10/15