理想的AI載具是什麼?

更新於 發佈於 閱讀時間約 4 分鐘
raw-image

這篇文章會跟大家介紹,為什麼我覺得ChatGPT的多模態輸入輸出其實是最重要的一個功能之一,讓AI往成為真正人工智慧代理人的路上前進了一大步,我們也會稍微探討(想像)一下,所謂的理想的AI載具到底應該是怎樣的?

最近的AI新聞仍是非常熱鬧,首先是OpenAI 的Dev Day 登場,宣布了針對ChatGPT的幾個大的更新,包括了升級的GPT4 Turbo, 更長的上下文, 還有眾所矚目的人人都能打造自己的ChatGPT的GPTs. 不過對我來說,最有趣的新聞其實是多模態的ChatGPT。

所謂的多模態是什麼? 多模態(Multimodality)是指利用多種方式或渠道來傳遞信息或進行溝通。在人機交互中,多模態系統能夠同時處理人類的多種感官輸入,如視覺、聽覺、觸覺等,以及多種輸出形式,包括視覺顯示、語音、觸覺反饋等。而套在現在的 GPT4 上面,多模態的ChatGPT則是可以讓我們輸入 圖片/檔案, 讓我們可以直接透過語音跟ChatGPT交談,然後ChatGPT也可以輸出圖片 & 語音(需要透過APP)。透過ChatGPT的Code interpreter 這個功能,你可以讓ChatGPT 幫你分析表格數字,並且自動產出各式各樣的表單或是圖表,而透過Dall-E的功能,則是能夠解放你的想像力,讓AI幫你描繪腦海中的圖片。

為什麼這些功能整合在一個介面很重要呢? 想像一下這就好像你在使用iPhone/Android 手機的時候,很多功能都需要在不同的APP之中切換來切換去,舉例來說我們想要匯款給一個賣家,我們需要從LINE上面把他的匯款帳號剪下來,然後到銀行的APP中貼上做匯款,這是一個摩擦力很大的動作,而有很多優秀的購物APP 如蝦皮/MOMO等等,就會盡力去降低這樣的摩擦力(透過用信用卡/支付/或是把銀行匯款功能整合進來),讓你可以支付的動作一鍵完成,降低你的摩擦力,那麼你就會更容易去使用這個功能,將來買的東西就會更多。

原本的ChatGPT 在處理繪圖的時候,需要特別開啟一個新的交談視窗,而請它分析數據的時候,又需要特別開啟新的交談視窗,請它上網查詢最新資料的時候又需要開一個...然後每個不同的視窗之間,你都需要重新提供整個交談的完整資訊,這就好像你聘請一個真人小秘書,但是交代不同任務的時候,明明是同一件大任務的細項,可是請他寫報告/整理圖表/去查詢市場資訊等等,都需要重頭交代起,應該會讓你很難忍受吧? 這也是為什麼把這些不同形式的輸入輸出整合在一個同樣的介面裡面如此的重要,今天你交代ChatGPT 上網查詢最新的數據資料,並且針對這些資料做整理做出圖表,最後再產生出一幅圖來搭配這些資料,我們不在需要在不同的介面/APP之間做搬運工,而是就像是交代一個真人小秘書一樣,它可自己知道前因後果,前後的資訊,並且一次就幫你處理到位 (當然會需要很多溝通微調就是了)。


raw-image


說到這邊就不得不提另一個很重要的事情,就是ChatGPT的語音介面,交談是一個比起手動打字摩擦力低很多的行動,所有的人類生下來就很自然的學習到了用語言彼此溝通交談,而手寫跟閱讀則是經年累月累積下來的能力,我的預期是,將來完美的智慧語音代理人,就能夠像一個真人一樣自然地跟你交談,並且記住整個交談中的內容,適時的判斷何時該提供你那些資訊。一個完美的人工智慧代理人能夠跟人類一樣,接受到五感帶來的資訊,並且也能夠跟人類一樣透過語言還有聲音來表達。

那麼,透過這樣的發想還有邏輯思考下來? 將來完美的AI的硬體會是怎樣的長相呢? 首先AI要能夠看到你所看到的,所以從這邊來思考,所謂的AR/VR Lens 也就是智慧型眼鏡可能是一個最佳的媒介,畢竟它能夠及時地看到你所看到的,而聽覺的部分就是有麥克風可以聽到你所聽到的,但又要能夠透過耳機/或是AR眼鏡或許開發骨傳導的技術來把聲音即使反饋給你。 最後最後,還是需要一個介面能夠呈現圖片還有文字,這部分就比較多的想像了,長期來說或許AR眼鏡就能夠直接投影出來,但我想短期內可能還是靠著跟手機的搭配是最合適的。 或許一個完美的AI 硬體不是單一的一個硬體,而是類似我們敘述的這樣,一系列能夠搭配人類五感的硬體,你所看見的聽見的,AI都能夠即時看見即時處理,然後又能夠即時的給你反饋。

以上,就是簡短的對於所謂AI硬體的想像,看了很多的網路文章以後,我自己的想法是這樣。這應該會是將來許多科技大公司積極投入(積極實驗?)的方向,畢竟Apple靠著iPhone賺了這麼多錢,所有的科技公司都在積極地尋找下一個iPhone moment & iPhone business. 那麼,你對於這樣的產品的想像,又是怎樣的呢?


技術PM的AI實驗室,是以輕鬆的角度深入簡出的探討各種生成式AI工具的使用。無論你是想理解AI到底是怎麼運作的? 想知道有那些好用的生成式AI工具? 或者是對AI繪圖有興趣的,都歡迎加入我們的AI實驗室一起輕鬆地玩耍,我們邊玩邊學,學習跟AI一起共創新的可能。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
本篇文章是 以ChatGPT翻譯華頓商學院教授Ethan Mollick的文章,並且稍微加上修飾而來的,是一篇相當好的該如何使用AI的引言,分享給各位。 我們學到的就是,只要使用AI,你就會學會如何使用AI。你只需大量使用AI,直到你弄清楚它的優點和缺點,就可以成為你領域的AI應用專家。
本篇文章是翻譯自 AI大神 吳恩達 Andrew Ng 的電子信件,吳恩達是史丹福大學計算機科學系和電氣工程系的客座教授,曾任斯坦福人工智慧實驗室主任。他與達芙妮·科勒一起創建了在線教育平台Coursera。本篇文章吳恩達談到AI與邊緣運算。
本篇文章是筆者近期聽過的一篇非常好的Podcast,為了想要記錄下來於是找了Podcast Note並且配合ChatGPT進行翻譯,想要聽Podcast或是參考原文的請看這邊。 本篇文章從神經心理學上面探討如何增強你的意志力跟監韌性,我覺得非常值得參考,分享給大家。 如何增強你的意志力和堅韌
ChatGPT背後的技術 大型語言模型 是否與我們前面介紹的神經網路相同呢? 答案是不同的,這也是我們想要進一步探討了解的課題。今天會先解釋什麼是語言模型,想要做到的是哪些事情。
今天要介紹的是一款免費好用的AI圖片放大器。 這款AI圖片放大器不但是完全免費的,而且好心人士還編譯了Windows/Linux/MacOS等各種版本,讓大家可以直接一鍵下載安裝,可是說是非常的佛心。
2023年才到三月為止,VC投入生成式AI的市場的估值就已經超越了前兩年的總和,可以想見整年下來絕對是一個數量級以上的差異。難道AI是這兩年才發明出來的嗎? 為什麼忽然之間全世界都在關注AI呢?  這就是我們這邊文章想要探討的,究竟AI發展到現在是否有什麼突破? 為什麼大家開始關注起AI。
本篇文章是 以ChatGPT翻譯華頓商學院教授Ethan Mollick的文章,並且稍微加上修飾而來的,是一篇相當好的該如何使用AI的引言,分享給各位。 我們學到的就是,只要使用AI,你就會學會如何使用AI。你只需大量使用AI,直到你弄清楚它的優點和缺點,就可以成為你領域的AI應用專家。
本篇文章是翻譯自 AI大神 吳恩達 Andrew Ng 的電子信件,吳恩達是史丹福大學計算機科學系和電氣工程系的客座教授,曾任斯坦福人工智慧實驗室主任。他與達芙妮·科勒一起創建了在線教育平台Coursera。本篇文章吳恩達談到AI與邊緣運算。
本篇文章是筆者近期聽過的一篇非常好的Podcast,為了想要記錄下來於是找了Podcast Note並且配合ChatGPT進行翻譯,想要聽Podcast或是參考原文的請看這邊。 本篇文章從神經心理學上面探討如何增強你的意志力跟監韌性,我覺得非常值得參考,分享給大家。 如何增強你的意志力和堅韌
ChatGPT背後的技術 大型語言模型 是否與我們前面介紹的神經網路相同呢? 答案是不同的,這也是我們想要進一步探討了解的課題。今天會先解釋什麼是語言模型,想要做到的是哪些事情。
今天要介紹的是一款免費好用的AI圖片放大器。 這款AI圖片放大器不但是完全免費的,而且好心人士還編譯了Windows/Linux/MacOS等各種版本,讓大家可以直接一鍵下載安裝,可是說是非常的佛心。
2023年才到三月為止,VC投入生成式AI的市場的估值就已經超越了前兩年的總和,可以想見整年下來絕對是一個數量級以上的差異。難道AI是這兩年才發明出來的嗎? 為什麼忽然之間全世界都在關注AI呢?  這就是我們這邊文章想要探討的,究竟AI發展到現在是否有什麼突破? 為什麼大家開始關注起AI。
你可能也想看
Google News 追蹤
Thumbnail
隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
這篇文章探討了AI多模態技術的革命性進展,包括視覺分析、語音合成與情緒理解等能力,如何從看圖識字到生成程式碼,全面提升工作效率與生活便利。文中以實際案例和企業應用展示多模態技術的潛力,並強調它對個人與商業世界的深遠影響,展現AI的無限可能。
Thumbnail
近年來,AI 技術的發展讓我們的生活更加便利,尤其是聊天機器人技術的大躍進,最具代表性的就是「ChatGPT」,已成為許多人日常生活和工作中的得力助手,無論是在撰寫文章、編寫程式碼、翻譯等領域。這篇文章會了解什麼是ChatGPT、如何使用它的介面,以及介紹不同版本的差異。
Thumbnail
ChatGPT(全名:聊天生成預訓練轉換器)是一個由 OpenAI 開發的人工智慧聊天機器人程式。它於 2022 年 11 月推出,使用了基於 GPT-3.5、GPT-4 和 GPT-4o 架構的大型語言模型,並以強化學習進行訓練。
在當今數位時代,人工智慧的應用已經漸漸融入到我們的生活中,而 ChatGPT 作為其中的一個代表,為創作提供了嶄新的可能性。ChatGPT 是一個強大的語言模型,能夠生成自然流暢的文本,並且可以根據用戶的需求進行調整,為創作者提供豐富多樣的創作素材和靈感。那麼,究竟如何利用 ChatGPT 創作呢?
在進入人工智能時代的今天,聊天機器人已經成為不可或缺的新形態。這些機器人不僅僅是科技的產物,更是智能化生活的一部分。它們不僅可以在日常生活中提供幫助,還能夠增進人機互動的自然性和智能性,從而改變我們的生活方式。
大語言模型,例如OpenAI提供的ChatGPT,是過去幾年發展的深度神經網路模型,開啟自然語言處理的新紀元。
Thumbnail
Chatbots 是一種模擬人類對話的電腦程式,通常透過文字或語音互動進行。隨著自然語言處理 (NLP) 和人工智慧 (AI) 技術的發展,Chatbots 在各個產業的應用日益廣泛。根據 Tidio 的研究,Chatbots 在五大產業中的應用主要集中在這些領域...
Inleiding Conversational AI, ofwel kunstmatige intelligentie die in staat is om met mensen te communiceren in natuurlijke taal, heeft de manier waaro
Thumbnail
近日,OpenAI再度掀起AI領域的巨浪,宣布ChatGPT正式進化成GPT-4。這一次的更新不僅僅讓ChatGPT變得更聰明,還引入了圖像辨識和文本輸入功能,使得ChatGPT成為一個多模態的工具。本文將深入探討ChatGPT 4的新功能、付費方案以及其在不同領域的應用。
Thumbnail
隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
這篇文章探討了AI多模態技術的革命性進展,包括視覺分析、語音合成與情緒理解等能力,如何從看圖識字到生成程式碼,全面提升工作效率與生活便利。文中以實際案例和企業應用展示多模態技術的潛力,並強調它對個人與商業世界的深遠影響,展現AI的無限可能。
Thumbnail
近年來,AI 技術的發展讓我們的生活更加便利,尤其是聊天機器人技術的大躍進,最具代表性的就是「ChatGPT」,已成為許多人日常生活和工作中的得力助手,無論是在撰寫文章、編寫程式碼、翻譯等領域。這篇文章會了解什麼是ChatGPT、如何使用它的介面,以及介紹不同版本的差異。
Thumbnail
ChatGPT(全名:聊天生成預訓練轉換器)是一個由 OpenAI 開發的人工智慧聊天機器人程式。它於 2022 年 11 月推出,使用了基於 GPT-3.5、GPT-4 和 GPT-4o 架構的大型語言模型,並以強化學習進行訓練。
在當今數位時代,人工智慧的應用已經漸漸融入到我們的生活中,而 ChatGPT 作為其中的一個代表,為創作提供了嶄新的可能性。ChatGPT 是一個強大的語言模型,能夠生成自然流暢的文本,並且可以根據用戶的需求進行調整,為創作者提供豐富多樣的創作素材和靈感。那麼,究竟如何利用 ChatGPT 創作呢?
在進入人工智能時代的今天,聊天機器人已經成為不可或缺的新形態。這些機器人不僅僅是科技的產物,更是智能化生活的一部分。它們不僅可以在日常生活中提供幫助,還能夠增進人機互動的自然性和智能性,從而改變我們的生活方式。
大語言模型,例如OpenAI提供的ChatGPT,是過去幾年發展的深度神經網路模型,開啟自然語言處理的新紀元。
Thumbnail
Chatbots 是一種模擬人類對話的電腦程式,通常透過文字或語音互動進行。隨著自然語言處理 (NLP) 和人工智慧 (AI) 技術的發展,Chatbots 在各個產業的應用日益廣泛。根據 Tidio 的研究,Chatbots 在五大產業中的應用主要集中在這些領域...
Inleiding Conversational AI, ofwel kunstmatige intelligentie die in staat is om met mensen te communiceren in natuurlijke taal, heeft de manier waaro
Thumbnail
近日,OpenAI再度掀起AI領域的巨浪,宣布ChatGPT正式進化成GPT-4。這一次的更新不僅僅讓ChatGPT變得更聰明,還引入了圖像辨識和文本輸入功能,使得ChatGPT成為一個多模態的工具。本文將深入探討ChatGPT 4的新功能、付費方案以及其在不同領域的應用。