
Image by Moshe Harosh from Pixabay
〔契機〕
一開始的想法是:聽音樂學發音並練發音變化,提升聽說能力。
英語口說的發音變化,主要有5種: 1. 縮音 2. 連音 3. 弱音 4. 消音 5. 變音
每一種發音變化又有多種變化形式。
從線上歌詞庫(網站)搜尋對應的發音變化形式的歌詞,找出適合每種發音變化的歌曲,然後邊聽邊學,聽歌練習每一種發音變化形式的聽力和口說能力,或者針對一種發音變化形式強化聽力和口說能力。
原先不以為意,我打算自己人工進行歌詞庫搜尋任務,發現這是個相當耗費時間和心力的工作。
後來 Notion 出現,在某個機緣下開始使用,發覺這是個強大好用的軟體。就用 Notion 建立英語文音樂的簡易資料庫,收錄1960年代~至今每一年排行TOP 100的歌曲。資料庫的建置沒有花太多時間,讓音樂庫搜尋工作所花費的時間和心力減少了很多。
後來AI橫空出世,一段時間過後,AI進階到聊天機器人(Chatbot),起初不知道怎麼切入運用,那時我暫時停止使用AI。
過了大約2年,我又開始使用AI,這次我要好好徹底學習AI,這時AI已進化到智能助理(AI Agent),發現AI Agent可以幫助我完成大量繁雜的歌詞庫搜尋查找的工作任務,而且是自動化、非常有效率的。
當我要聽音樂練習英語文發音變化的聽說能力。
我對 AI 說:「我想學習英語發音,聽音樂學習英語連音。現在我要練習 的連音方式,請幫我搜尋英文歌詞有『 連音』的歌曲,告訴我有哪些英語歌曲。」
如果是Chatbot,AI只會按照我的要求或需求去做,我得先想好之後再請求或指示它做。
如果是AI Agent,它會幫我想好了、還幫我做好了,AI主動地幫我搞定事情、完成任務。
AI須有一顆聰明的大腦(理解人類語言),知道我是誰,懂我的話,跟我可以進行有意義的對話。它具備記憶力,記得我說過的話,了解我的偏好和習慣。它還具備手腳可以執行,並且會使用工具完成任務、解決問題。
大腦,就是大型語言模型(Large Language Model, 簡稱LLM)。 大腦會理解人類的語言、分析歸納、推理、計畫、決策、判斷,能進行「想]的層面。
目前廣泛使用的熱門大型語言模型LLM:
- OpenAI ChatGPT
- Google Gemini
- Anthropic Claude
- Meta Llama(開源)
擁有記憶,能夠記得你是誰,能夠記住對話脈絡,能夠記住過去經驗。短期記憶只可記得當前的對話及現在說的話與做的事,長期記憶則可記得過去到現在的對話及說的話與做的事。
實現長期記憶的方式,是把資訊和知識分別儲存在向量資料庫與結構化資料庫,用資料庫來組織、處理資訊和知識,並且將對話作成摘要保存。
手腳,就是執行層面,使用適合的工具來滿足你的需求,或解決你的問題,或完成你交代、指示的工作任務。所使用的工具是電腦設備及數位網路,包括各種各樣的平台、系統、程式與軟體等。虛實交錯重疊,虛擬和真實世界、線上與線下相互影響。
大腦運作(思考力)→調用記憶(記憶力)→使用工具(計畫力)→執行工作(執行力)
AI 理解我的需求(要求、交代、指示、命令)或問題。
我的需求或問題:「我想學習英語發音,聽音樂學習英語連音。現在我要練習 的連音方式,請幫我搜尋英文歌詞有『 連音』的歌曲,告訴我有哪些英語歌曲。」
AI從我的需求分析出幾個重要資訊:
- 英語發音
- 聽音樂學習英語連音
- 英文歌詞有「 連音」的歌曲
制定計畫:
- 了解什麼是連音
- 了解「 連音」方式
- 搜尋符合條件的歌曲
- 將結果告訴我
從記憶中回想:
- 已知的英語發音知識
- 其它英語發音方式
- 所有英語連音方式
- 我的身分、偏好和習慣
- 過去跟我互動的相關對話
使用工具完成工作任務:
- 用搜尋引擎找英語發音及連音的相關知識和資訊
- 進入歌詞庫網站搜尋英文歌詞有「 連音」的歌曲
- 列出符合的歌單並告知



















