這篇文章會跟大家介紹,為什麼我覺得ChatGPT的多模態輸入輸出其實是最重要的一個功能之一,讓AI往成為真正人工智慧代理人的路上前進了一大步,我們也會稍微探討(想像)一下,所謂的理想的AI載具到底應該是怎樣的?
最近的AI新聞仍是非常熱鬧,首先是OpenAI 的Dev Day 登場,宣布了針對ChatGPT的幾個大的更新,包括了升級的GPT4 Turbo, 更長的上下文, 還有眾所矚目的人人都能打造自己的ChatGPT的GPTs. 不過對我來說,最有趣的新聞其實是多模態的ChatGPT。
所謂的多模態是什麼? 多模態(Multimodality)是指利用多種方式或渠道來傳遞信息或進行溝通。在人機交互中,多模態系統能夠同時處理人類的多種感官輸入,如視覺、聽覺、觸覺等,以及多種輸出形式,包括視覺顯示、語音、觸覺反饋等。而套在現在的 GPT4 上面,多模態的ChatGPT則是可以讓我們輸入 圖片/檔案, 讓我們可以直接透過語音跟ChatGPT交談,然後ChatGPT也可以輸出圖片 & 語音(需要透過APP)。透過ChatGPT的Code interpreter 這個功能,你可以讓ChatGPT 幫你分析表格數字,並且自動產出各式各樣的表單或是圖表,而透過Dall-E的功能,則是能夠解放你的想像力,讓AI幫你描繪腦海中的圖片。
為什麼這些功能整合在一個介面很重要呢? 想像一下這就好像你在使用iPhone/Android 手機的時候,很多功能都需要在不同的APP之中切換來切換去,舉例來說我們想要匯款給一個賣家,我們需要從LINE上面把他的匯款帳號剪下來,然後到銀行的APP中貼上做匯款,這是一個摩擦力很大的動作,而有很多優秀的購物APP 如蝦皮/MOMO等等,就會盡力去降低這樣的摩擦力(透過用信用卡/支付/或是把銀行匯款功能整合進來),讓你可以支付的動作一鍵完成,降低你的摩擦力,那麼你就會更容易去使用這個功能,將來買的東西就會更多。
原本的ChatGPT 在處理繪圖的時候,需要特別開啟一個新的交談視窗,而請它分析數據的時候,又需要特別開啟新的交談視窗,請它上網查詢最新資料的時候又需要開一個...然後每個不同的視窗之間,你都需要重新提供整個交談的完整資訊,這就好像你聘請一個真人小秘書,但是交代不同任務的時候,明明是同一件大任務的細項,可是請他寫報告/整理圖表/去查詢市場資訊等等,都需要重頭交代起,應該會讓你很難忍受吧? 這也是為什麼把這些不同形式的輸入輸出整合在一個同樣的介面裡面如此的重要,今天你交代ChatGPT 上網查詢最新的數據資料,並且針對這些資料做整理做出圖表,最後再產生出一幅圖來搭配這些資料,我們不在需要在不同的介面/APP之間做搬運工,而是就像是交代一個真人小秘書一樣,它可自己知道前因後果,前後的資訊,並且一次就幫你處理到位 (當然會需要很多溝通微調就是了)。
說到這邊就不得不提另一個很重要的事情,就是ChatGPT的語音介面,交談是一個比起手動打字摩擦力低很多的行動,所有的人類生下來就很自然的學習到了用語言彼此溝通交談,而手寫跟閱讀則是經年累月累積下來的能力,我的預期是,將來完美的智慧語音代理人,就能夠像一個真人一樣自然地跟你交談,並且記住整個交談中的內容,適時的判斷何時該提供你那些資訊。一個完美的人工智慧代理人能夠跟人類一樣,接受到五感帶來的資訊,並且也能夠跟人類一樣透過語言還有聲音來表達。
那麼,透過這樣的發想還有邏輯思考下來? 將來完美的AI的硬體會是怎樣的長相呢? 首先AI要能夠看到你所看到的,所以從這邊來思考,所謂的AR/VR Lens 也就是智慧型眼鏡可能是一個最佳的媒介,畢竟它能夠及時地看到你所看到的,而聽覺的部分就是有麥克風可以聽到你所聽到的,但又要能夠透過耳機/或是AR眼鏡或許開發骨傳導的技術來把聲音即使反饋給你。 最後最後,還是需要一個介面能夠呈現圖片還有文字,這部分就比較多的想像了,長期來說或許AR眼鏡就能夠直接投影出來,但我想短期內可能還是靠著跟手機的搭配是最合適的。 或許一個完美的AI 硬體不是單一的一個硬體,而是類似我們敘述的這樣,一系列能夠搭配人類五感的硬體,你所看見的聽見的,AI都能夠即時看見即時處理,然後又能夠即時的給你反饋。
以上,就是簡短的對於所謂AI硬體的想像,看了很多的網路文章以後,我自己的想法是這樣。這應該會是將來許多科技大公司積極投入(積極實驗?)的方向,畢竟Apple靠著iPhone賺了這麼多錢,所有的科技公司都在積極地尋找下一個iPhone moment & iPhone business. 那麼,你對於這樣的產品的想像,又是怎樣的呢?