更新於 2024/10/29閱讀時間約 6 分鐘

進化為GPT-4o 可以聊天兼翻譯,圖片辨識大有進展。不用十年,不到兩年AI已可取代許多人類庶務

2024年5月13日,Openai發布了新一代的模組GPT-4o,念法:GPT-four-O。強調即時對話以及圖像解析能力,官方發布的影片中展現了即席英語-義大利語口譯、程式碼解析、算式解析、人臉表情解析,以及幾乎可媲美真人的語音回應,包含調整語氣、用詞以及模仿機器人語音等,相當令人驚豔。

官方發布影片

26分鐘的影片中,主持人技術長穆拉蒂(Mira Murati)介紹到希望能夠讓人們更直覺地使用速度更快的GPT-4o,接下來兩名工程師分別以不同的方式展示新一代GPT-4o的能力,包括用對話請GPT-4o提供放鬆建議,並且故意喘氣讓她偵測自己的語速,請她用不同的情緒講故事等等。



圖片生成能力進化

先前我試用GPT-4的文章,提到GPT-4還無法調整圖片格式,新一代的GPT-4o已經可以調整圖片格式,也能夠去背及調整長寬比。但因為一次指令還是只能出一張圖,所以要調校很多次才能出現理想的照片。

我請ChatGPT生成四組貓咪的圖片,看能不能用在我新的貓貓系列書上。

Chat GPT-4o生成圖片


一開始的這組有點太Q版了,因此我請他調整寫實一點、身體長一點,經過幾次後,出現比較適合的風格。

GPT-4o生成圖片


然後我再請他提供透明背景的png格式,第一次有點失敗,圖像都破了。

GPT-4o去除圖片背景


只好再請他製作一次,這次圖像本身沒有破碎,可是邊緣有點粗糙。

GPT-4o去除圖片背景

如果放在深色背景的環境下,看得很清楚貓咪周圍有白色的色塊。

GPT-4o去背圖片


用文字對話調校圖片,其實還不是那麼直覺,正確來講是有點困難,可能還是送去給專門AI修圖的軟體製作會好一點。

GPT-4o圖片生成對話畫面


GPT-4o比GPT-4聰明嗎?

根據介紹,GPT-4o還是在GPT-4的基礎上去優化,也就是還沒有調校到完美的境界。我用同一個問題,也就是請問臺灣文學作家影響力前十的排行,得出來不一樣的答案,可以看出來GPT-4o是較為精準的,因為GPT-4把魯迅排在第一名就是有點奇怪,魯迅從來沒來過臺灣啊?

GPT-4回復有關臺灣影響力前十名作家

魯迅 - 雖然他是中國作家,但魯迅的作品對華語文學圈,包括台灣,有著深遠的影響。

白先勇 - 以其細膩的筆觸描繪出多元的愛情與人性,著有《台北人》等經典作品。

三毛 - 知名的流浪作家,以《撒哈拉的故事》等作品聞名,其獨特的生活經歷和深情敘事風格深受讀者喜愛。

李昂 - 知名的女性作家,作品常探討女性主義與性別議題,如《牽阮的手》。

張系國 - 以描寫台灣鄉土人情為主,其作品反映了台灣社會與文化的變遷。

鍾肇政 - 以創作台灣本土化的小說見長,作品豐富,風格多變。

朱天心 - 其作品深入挖掘家族和歷史記憶,如《古都》等作品廣受好評。

郭強生 - 以小說和散文見長,作品常反映出台灣社會底層的生活實況。

吳明益 - 以其深刻的人文關懷和精緻的文字著稱,著有《天橋上的魔術師》等作品。

詹宏志 - 雖然他以企業家身份更為人所知,但他的書籍和對台灣文化的貢獻也值得關注。


GPT-4o回復有關臺灣影響力前十名作家

  1. 白先勇
    • 他的小說集《台北人》被翻譯成多種語言,包括英語、法語、德語、日語等。
  2. 余光中
    • 他的詩集《鄉愁》被翻譯成多種語言,包括英語、法語、西班牙語等。
  3. 龍應台
    • 她的散文集《大江大海一九四九》和其他作品被翻譯成多種語言,包括英語、德語、法語、日語等。
  4. 李昂
    • 她的小說《殺夫》被翻譯成多種語言,包括英語、德語、法語、日語、韓語等。
  5. 朱天文
    • 她的小說《荒人手記》和其他作品被翻譯成多種語言,包括英語、法語、德語、日語等。
  6. 朱天心
    • 她的小說《古都》被翻譯成多種語言,包括英語、法語、德語、日語等。
  7. 王文興
    • 他的小說《家變》被翻譯成多種語言,包括英語、法語、德語、日語等。
  8. 七等生
    • 他的小說《逆旅》被翻譯成多種語言,包括英語、法語、德語、日語等。
  9. 陳映真
    • 他的社會寫實主義作品被翻譯成多種語言,包括英語、法語、德語、日語等。
  10. 張大春
    • 他的小說《尋人啟事》和其他作品被翻譯成多種語言,包括英語、法語、德語、日語等。

備註:第10原本是寫平路,但因為代表作品一直寫錯被我糾正,後來GPT-4o自己換成張大春。

小結

這次發布的GPT-4o又可以看出來文本生成AI的進展又往前跨了一大步,我相信一年以後再回來看,幾乎可達到真人對話的效果,而且根本比正常人類聰明。

手機上安裝GPT來進行實時對話,是本次發布的一大亮點,但目前因為流量過載一直沒實際測試成功,等到測試後再跟大家分享。如果即時口譯好用又正確度高的話,去旅遊就很方便了,未來甚至有可能作為多數會議的多語即席口譯,只有非常重要或機敏性質的會議才需要使用真人口譯。


分享至
成為作者繼續創作的動力吧!
© 2024 vocus All rights reserved.