Multimodal Music Notation Understanding(多模態音樂符號理解)是指透過結合多種感知模態(如影像、聲音、語言),對音樂譜或相關文獻進行全面理解與處理的技術。
專案範例:從樂譜影像到播放音樂(OMR → MIDI)

目標
輸入:一張印刷樂譜圖片 輸出:自動轉換為 MIDI 並播放系統架構
複製編輯[樂譜圖片]
│
▼
[圖像辨識模型 (OMR)] → [音符與節奏資訊 (符號資料)]
│
▼
[MIDI 產生器] → [音樂播放]
任務 技術 工具/模型 樂譜辨識

sss
🔧 實作步驟(Python 為主)
Step 1: 安裝 Audiveris(開源 OMR 工具)
可至此下載對應作業系統的可執行檔 https://github.com/Audiveris/audiveris
Step 2: 使用 Audiveris 將圖片轉為 MusicXML
audiveris -batch -export my_score.png # 輸出檔為 my_score.mxl(MusicXML 格式),他也有GUI介面的版本
Step 3: 用 music21 讀取 MusicXML 並轉為 MIDI
#python
from music21 import converter
score = converter.parse("my_score.mxl")
score.show('text') # 顯示音符資料
score.write('midi', fp='output.mid') # 儲存為 MIDI
Step 4: 播放音樂: 可用 media player撥放 *.mid 的MIDI檔 或 寫段python小程式
#python
import pygame
pygame.init()
pygame.mixer.music.load("output.mid")
pygame.mixer.music.play()
MusicXML格式也可另外至 官網:https://musescore.org/下載
MuseScore
- ✅ 支援 MusicXML 輸入與輸出
- ✅ 可以編輯、播放、轉出 PDF / MIDI
- ✅ 支援繁體中文
- 💡適合一般音樂製作、教育用途
當然也可反向思考,當你手上有音樂檔,用AI模型辨識音樂曲調成文字音符,在轉成musicXML格式,由musicXML轉成實際樂譜。





















