文字轉語音TTS如何處理中英夾雜與數字/符號?「文字MP3」的文字正規化(text normalization)規則說明

「文字MP3」是如何將一篇包含有中文、英文、數字、符號的文字使用朗讀内容時,能夠用我們口語化、習慣的唸法進行朗讀?

「文字MP3」支援的文字正規化 (text normalization):

  1. Email address: { [email protected] or xyz@abc }
  2. 電話號碼或順序數字: { (02)3333-5555 or (123) or 03-5791000-1234 }
  3. 年月日: { AD1999 or 2008/2/13 or 97.3.5 }
  4. 冒號:時間或比例: { 時間是8:00 PM or分數是 3:5 }
  5. 金錢符號$與金額數字:{ NT$100 or US$ 20 or $10.5 }
  6. 百分比號%與一般數字:{ 10% or 12345 }
以上符號不管是全形還是半形都可以支援

例子 (藍色表示輸入的文字內容,紅色表示唸出的語音內容)

1. Email address:

  • 我的電子郵件信箱是 [email protected] (符合格式:“@”將唸出: “小老鼠”)
    (我的電子郵件信箱是 一二三小老鼠一一一點四零點三三三點二二二)
  • 我的電子郵件信箱是123@ 123.555 (不符合格式: “@”將唸出: “老鼠號”)(我的電子郵件信箱是 一二三 老鼠號 一百二十三點五五五)

2. 電話號碼或順序數字

  • 我家裡的電話是 (02)3333-5555,公司(1)的電話是: 03-5791000-1234,公司(2)的電話是: 03-124567
    (我家裡的電話是 零二 三三三三 五五五五 公司 一 的電話是零三 五七九一零零零 一二三四 公司 二 的電話是 零三 一二四五六七)

3. 年月日

  • 今年是AD2008,後年是西元2009,大後年是AD2010年。
    (今年是西元二零零八年,後年是西元二零零九,大後年是西元二零一零年。)
  • 朋友預定在2008/3/8結婚,另一個朋友是3/22/2008要訂婚。
    (朋友預定在二零零八年三月八日結婚,另一個朋友是二零零八年三月二十二日要訂婚。)
  • 朋友預定在97.3.8結婚,另一個朋友是3.22.97要訂婚。
    (朋友預定在九十七年三月八日結婚,另一個朋友是九十七年三月二十二日要訂婚。)

4. 冒號:時間或比例

  • 現在時間是2008/7/12 10:36AM,洋基對紅襪比數是10:1。
    (現在時間是二零零八年七月十二日 上午十點三十六分,洋基對紅襪比數是十比一。)
  • 2008/06/18 16:20,王楠以21-8、19-21、21-15擊敗對手。
    (二零零八年六月十八日 十六點二十分,王楠以二十一比八、十九比二十一、二十一比十五擊敗對手。)

5. 金錢符號$與金額數字 (符號須在數字前面;支援$, NT$ 和US$)

  • 我買衣服花了NT$ 980.5,買褲子花了US$ 100.33,買襪子花了$101。
    (我買衣服花了 新台幣 九百八十點五元,買褲子花了 美金 一百點三三元,買襪子花了 一百零一元。)
  • 我在台北101買襪子花了$101,買手帕也花了101元。
    (我在台北一零一買襪子花了 一百零一元,買手帕也花了一百零一元。)

6. 百分比號%與一般數字

  • 這件毛線衣83%是羊毛的,另外17%不清楚。
    (這件毛線衣百分之八十三是羊毛的,另外百分之十七不清楚。)
  • 有七十二.四%的受訪者表示,對未來充滿希望。
    (有七十二點四百分比的受訪者表示,對未來充滿希望。)
  • 我本來有654321元的存款,但現在只剩下409011元而已。
    (我本來有六十五萬四千三百二十一元的存款,但現在只剩下四十萬九千零一十一元而已。)
  • 他是第1001個頭獎得主,住在台北101大樓的503室。
    (他是第一千零一個頭獎得主,住在台北一零一大樓的五零三室。)

介紹AI趨勢、應用工具,為您補給滿滿の AI超能力!
留言0
查看全部
發表第一個留言支持創作者!