【💊 Python的解憂錦囊】如何在multithread/multiprocess傳遞固定參數？

2024/10/24 更新2023/10/24 發佈閱讀 11 分鐘

撰寫Python的朋友都知道multithread/multiprocess能為我們帶來效能的改進，減少硬體資源的閒置，但在撰寫的過程中常常會發現到我們所設計的工作池模式會需要將「待辦清單」的工作項目當成參數傳遞進去執行，除了「待辦清單」之外，其餘的參數基本上都是固定的，基於這樣的需求之下，我們要怎麼完成呢？讓我們耐心的看完這個篇章。

我們通常會這樣做…

假設我們設計了一個工作但尚未實作工作詳細內容，僅印出工作資訊如下 :

def job(name: str, action: str, item: str):
    """工作內容
    
    Args : 
        name (str): 什麼樣的工作
        action (str): 工作的行為(加工、蓋房、...)
        item: 工作的項目
    Retruns:
        None
    """
    result = f'{name} 正在 {action} {item}'
    return result

接著我們在主程序設計好我們要執行「什麼樣的工作」、「工作的行為」，接著我們會有許多的「待辦事項」需要執行，接著招聘好工人(num_workers)之後就可以根據作業區擴展廠區(pool)，每個作業區獨立運作這些待辦清單，那我們可能會這樣撰寫程式：


import concurrent.futures

if __name__ == "__main__":
    # 設計今天的主題
    name = '食品加工廠'
    action = '製作'
    
    # 待辦事項
    todo_list = ['熱狗', '炸雞', '薯條', '肉乾']
    
    num_workers = 3
    
    # 創建一個多進程池，根據上述的工人數量擴展工作池
    with concurrent.futures.ProcessPoolExecutor(max_workers=num_workers) as executor:

				# 我們將大量的待辦事項轉換成每個worker需要執行的
        params = [(name, action, item) for item in todo_list]
        results = executor.map(job, params)
    
    # 印出執行結果
    for result in results:
        print(result)

但上述的作法真的好嗎？

我們的params不會隨著「待辦清單」越多(上千萬個事項)，導致記憶體爆掉嗎？不妨來看看我們更改後的範例，假設有1000萬的「待辦清單」時會發生什麼狀況？我們也順便埋入執行的估測時間來實際看看結果。

import multiprocessing
import time
import random
import sys

def job(name: str, action: str, item: str):
    """工作內容
    
    Args : 
        name (str): 工作名稱
        action (str): 動作
        item: 工作的項目
    Retruns:
        None
    """
    secs = random.random()
    result = f'{name} 正在 {action} {item} 花費了 {secs} 秒'
    time.sleep(secs)
    return result

if __name__ == "__main__":
    # 固定的參數
    name = '食品加工廠'
    action = '製作'
    
    # 主程序提供的待辦事項清單
    # todo_list = ['熱狗', '炸雞', '薯條', '肉乾']
    todo_list = [f"工作{i}" for i in range(1, 10000000)]
    
    num_workers = 3
    
    # 創建一個多進程池，這裡使用3個進程
    with multiprocessing.Pool(processes=num_workers) as pool:
        start_time = time.time()
        params = [(name, action, item) for item in todo_list]
        end_time = time.time()
        
        use_bytes = sys.getsizeof(params)
        use_mb = use_bytes / 1048576
        print(f'渲染參數花費的時間: {end_time - start_time} 秒, 耗用的記憶體: {use_mb} MB')
        
        results = pool.starmap(job, params)
        for result in results:
            print(result)

我們會發現以下光是簡單的參數就花費如此之多的記憶體耗用量，那面對大數據時怎麼辦？

因此我們可以這樣做…

我們在「【Python 軍火庫🧨 - functools】使用partial來設計函數樣板」有介紹到「functools.partial」這個工具庫，我們可以利用partial的技巧製造出固定參數的新函式，以不變應萬變，套用到multiprocess之前就不需要一堆複製的資源耗費…。

那在進入主題之前，我們先來複習一下關於functools.partial函式，他可以幫我們製作出固定參數的樣版。

但聰明的大家有沒有觀察到一個狀況，那就是動態的參數通常在前面(a, b)，而固定的參數放在後段(c)，因此底下我們的job的參數設計勢必要改一改，由於我們的item會隨著todolist而變化，因此需要將函式參數順序稍微修改一下成「job(item: str, name: str, action: str)」。

另外在於multiprocess的部份，我們原先使用的是「starmap」接受多參數的模式，但經上述演示之後覺得對於大數據的處理不太妥當，因此我們可以更換成「map(func, iterable[, chunksize])」，他們的差異主要在於

import multiprocessing
import time
import random
import sys
from functools import partial

def job(item: str, name: str, action: str):
    """工作內容
    
    Args : 
        item (str): 工作的項目 [可變]
        name (str): 工作名稱 [固定]
        action (str): 動作 [固定]
        
    Retruns:
        None
    """
    secs = random.random()
    result = f'{name} 正在 {action} {item} 花費了 {secs} 秒'
    return result

if __name__ == "__main__":
    # 固定的參數
    name = '食品加工廠'
    action = '製作'
    
    # 主程序提供的待辦事項清單
    # todo_list = ['熱狗', '炸雞', '薯條', '肉乾']
    todo_list = [f"工作{i}" for i in range(1, 10000000)]
    
    num_workers = 24
    
    # 創建一個多進程池，這裡使用3個進程
    with multiprocessing.Pool(processes=num_workers) as pool:
        start_time = time.time()
        job_func = partial(job, name=name, action=action)
        end_time = time.time()
        
        use_bytes = sys.getsizeof(job_func)
        use_mb = use_bytes / 1048576
        print(f'渲染參數花費的時間: {end_time - start_time} 秒, 耗用的記憶體: {use_mb} MB')
        
        results = pool.map(job_func, todo_list)
        for result in results:
            print(result)

乍看之下是不是會誤以為花費更久的時間了呢？請仔細看一下它的數字是否怪怪的，有負數的出現…，這是科學記號，代表是一個非常小的數字，也就是幾乎沒有耗損的過程，這面對於大數據的處理，相對能夠帶來極大的效能增幅。

結語

上述的例子仍有一些缺陷，雖然實際上仍是以multiprocess的方式並行處理我們的運算，但必須等待全部的工作完成後，才回到主線程，這對於我們跟蹤程式進度的應用會稍微不利，不過沒關係，我們後續也會針對這個部份進行重點分享，歡迎持續追蹤，讓我們一起探究軟體開發的大小事。

學習軟體開發的路上常常苦於網路資訊爆炸嗎？教學何其多，但卻遇到無法明確選擇的困境呢？歡迎加入「🔒 阿Han的軟體心法實戰營」，這裡不給您冗餘的雜訊，單刀直入直接送您業界開發重點，避開選擇障礙的困境，讓您獲得業界標準的開發起手式，成為Top 1的頂尖人才。

#python

#程式語言

阿Han的沙龍阿Han的軟體技術棧 💡python

留言

阿Han的沙龍

153會員

329內容數

哈囉，我是阿Han，是一位 👩‍💻 軟體研發工程師，喜歡閱讀、學習、撰寫文章及教學，擅長以圖代文，化繁為簡，除了幫助自己釐清思路之外，也希望藉由圖解的方式幫助大家共同學習，甚至手把手帶您設計出高品質的軟體產品。

阿Han的沙龍的其他內容

2025/01/29

【💊 Python的解憂錦囊】Enum也可以很靈活 - 動態模板字串

🤔 簡單且靜態就足夠了？相信我們在開發Python應用程式的過程中，常常會借用Enum來定義我們可能的選項，就像顏色紅、綠、黃會有這樣的結構： class Color(str, Enum): RED = 'red' GREED = 'green' YELLOW = 'yel

2025/01/29

【💊 Python的解憂錦囊】Enum也可以很靈活 - 動態模板字串

2025/01/08

【💊 Python的解憂錦囊】既能管理環境變數又能驗證的pydantic

當我們的系統發展到一定程度時，難免會面臨到正式上線的問題，要如何讓維運更加簡易呢？尤其隨著複雜的客製化配置的出現時，我們應該如何有效的管理，甚至驗證配置是否如預期資料型態、格式…，而正好 pydantic 可以滿足這樣的需求，就讓我們來看看怎麼使用吧！需安裝的套件 pip i

2025/01/08

【💊 Python的解憂錦囊】既能管理環境變數又能驗證的pydantic

2025/01/02

【💊 Python的解憂錦囊 - FastAPI】多個worker如何共享數據？

要如何使用unicorn啟動多個FastAPI服務，歡迎參考我們的「【💊 Python的解憂錦囊 - FastAPI】如何啟動多個Workers」。當我們試著設計帶入模組化時… 我們在「【💊 Python的解憂錦囊 - FastAPI】使用 lifespan 來共享資料與管理生命週期

2025/01/02

【💊 Python的解憂錦囊 - FastAPI】多個worker如何共享數據？

看更多

你可能也想看

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：一場跨越時空的藝術對話，在舞臺上重現自由靈魂

本文深度解析賽勒布倫尼科夫的舞臺作品《傳奇：帕拉贊諾夫的十段殘篇》，如何以十段殘篇，結合帕拉贊諾夫的電影美學、象徵意象與當代政治流亡抗爭，探討藝術在儀式消失的現代社會如何承接意義，並展現不羈的自由靈魂。

#釀電影#釀評論#藝術評論

2026/02/11

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：一場跨越時空的藝術對話，在舞臺上重現自由靈魂

#釀電影#釀評論#藝術評論

2026/02/11

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11

黃郁書的沙龍

《海妲．蓋柏樂》：女性困境與「永恆少年」的毀滅衝動

5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》，由臺灣劇團「晃晃跨幅町」製作，本文將以從舞台符號、聲音與表演調度切入，討論海妲・蓋柏樂在父權社會結構下的困境，並結合榮格心理學與馮．法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析，理解女人何以走向精神性的操控、毀滅與死亡。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

黃郁書的沙龍

《海妲．蓋柏樂》：女性困境與「永恆少年」的毀滅衝動

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

詹育杰的沙龍

《轉轉生 Re:INCARNATION》：Qudus Onikeku、約魯巴哲學與 Afrobeat 的去殖民身體政治

《轉轉生》（Re:INCARNATION）為奈及利亞編舞家庫德斯．奧尼奎庫與 Q 舞團創作的當代舞蹈作品，結合拉各斯街頭節奏、Afrobeat／Afrobeats、以及約魯巴宇宙觀的非線性時間，建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發，解析其去殖民的身體政治。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

詹育杰的沙龍

《轉轉生 Re:INCARNATION》：Qudus Onikeku、約魯巴哲學與 Afrobeat 的去殖民身體政治

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

螃蟹_crab的沙龍

[Python][微進階]Queue佇列中的資料被多個執行緒並行處理

在Python中，queue是一個非常有用的模块。它提供了多種佇列（queue）實現，用於在多線程環境中安全地交換信息或者數據。佇列（queue）是一種先進先出（FIFO）的數據結構，允許在佇列的一端插入元素，另一端取出元素。(FIFO 是First In, First Out 的縮寫)

#queue#Python#佇列

2024/03/22

螃蟹_crab的沙龍

[Python][微進階]Queue佇列中的資料被多個執行緒並行處理

#queue#Python#佇列

2024/03/22

螃蟹_crab的沙龍

[Python][微進階]threading 多執行緒平行處理

當你需要在 Python 中執行多個任務，但又不希望它們相互阻塞時，可以使用 threading 模組。 threading 模組允許你在單個程序中創建多個執行緒，這些執行緒可以同時運行，從而實現並行執行多個任務的效果。

#Python#多執行緒#同步處理

2024/03/21

螃蟹_crab的沙龍

[Python][微進階]threading 多執行緒平行處理

#Python#多執行緒#同步處理

2024/03/21

阿Han的沙龍

【💊 Python的解憂錦囊】multiprocess/multithread 如何重複使用大模型

關於多執行緒/多行程的使用方式在Python 3.2版本之後加入了「concurrent.futures」啟動平行任務，它可以更好的讓我們管理多執行緒/多行程的應用場景，讓我們在面對這種併發問題時可以不必害怕，用一個非常簡單的方式就能夠處裡，底下我們將為您展示一段程式碼： imp

#程式語言#python

2024/01/09

阿Han的沙龍

【💊 Python的解憂錦囊】multiprocess/multithread 如何重複使用大模型