2023-11-06|閱讀時間 ‧ 約 16 分鐘

科幻到現實:特斯拉人形機器人 Optimus 的崛起

    Hi 我是 VK~

    近來,AI 能夠提供機器人不同的訓練方式,讓這議題有了新一波的討論,尤其是人形機器人(Humanoid Robots)。

    其中,Tesla 的人形機器人 Optimus 是大家關注的焦點之一。

    這期來聊聊 Tesla 打造 Optimus 的故事、當時他們為什麼選擇人形機器人、在開發過程中遇到哪些困難。以及,還有哪些公司正在著手打造人形機器人?


    推付費電子報前的掙扎與心魔

    在 7 月底的近況更新中,提到「預計在半年內推出付費版的電子報」。

    最近,正在如火如荼籌備「付費版的電子報計畫」,也蠻想和大家分享推出付費電子報前的掙扎或心魔。

    「寫得真的好到讓人訂閱嗎?」

    「我的內容對別人有價值嗎?」

    「推出付費版會不會沒有人訂?」

    以上,大概是這陣子繚繞心頭的各種問題。沒有答案,只能試著揣測訂戶們的想法。

    但這個猜,蠻困擾的。答案依序可能是內容不夠好、可能沒人訂,反而讓自己更迷茫。

    後來給自己的答案是,這些心魔很難克服、只要活著,煩惱、焦慮、懷疑有很大的程度都會存在。

    即便已經寫了好一陣子,還是會有覺得不夠好,也是會有「冒牌者症候群」的想法。

    好像沒有辦法停止不去思考這些事情,或許就借助這些想法,持續讓自己進步。

    推出付費版,更多時候是種對讀者的承諾。不管是在品質或是時間上,都是一種要更好的承諾。

    最近,寫電子報時,發現過去的期數很像大型的卡片盒筆記。

    它們會互相串連,因為講到同個主題,但之前有寫過不同的角度。這段文字一定會有個超連結,跟讀者說喔,這之前有寫到,有興趣也可以閱讀。

    希望可以讓讀者用不同概念,理解同個主題,最後交織出關於特定主題的知識網。

    這陣子,偶爾會往回看半年多以前寫的電子報。

    突然發現,欸,以前跟現在的字數差好多,之前的字數大概只有現在的一半,或是 1/3。

    寫了一段時間後,也發現對內容的要求,墊得越來越高。當然,品質也相對變得更好。

    是時候也需要往下個階段前進:付費版的電子報。

    理由大概有幾個:希望可以在不用太擔心收入問題的前提下,更專心在內容的產出。

    另外,也期待《VK科技閱讀時間》內容有更多的成長和進步。

    最後,想邀請你花 3 分鐘的時間,填寫「付費電子報前測問卷」。我們將會選出 3 位最精采的讀者證言,送出《馬斯克傳》!


    從科幻到現實:特斯拉人形機器人 Optimus 的崛起

    一位女演員穿著白色連身衣模仿機器人,做了機器人的手勢、在舞臺上跳舞。

    這是 2021 年 8 月 Tesla 舉辦首屆 AI Day 的一段活動環節。馬斯克宣布了 Optimus 的開發計畫。

    Optimus (或稱 Tesla Bot)是人形機器人,顧名思義是模仿人類的身形打造出來的機器人。不同於大家過往熟悉輪足、四足機器人。

    為什麼選擇打造人形機器人?

    目前身高約 173 公分、重量約 57 公斤、承重能力約 21 公斤的 Optimus 可以做到靈活自主分類物體、做出瑜伽動作、抓握,以及比出愛心等精細的手部動作。

    從 Optimus 的人形機器人可以延伸幾個問題:

    • 為什麼選擇打造人形機器人, 而不是過往有輪子的機器?
    • 打造人形機器人有哪些困難需要克服,或是限制?

    馬斯克在宣布 Optimus 開發計畫後,下了指令「必須是人形機器人」。這背後有幾個原因:

    第一,物理世界的的工作空間、工具,主要都是以人類為對象設計而成的。

    舉例來說,要人形機器人在既有的汽車生產線上工作,它就需要能夠操作人在使用的工具。這些一開始都是以人類為主進行設計的。無論工作空間的高度、工具都是,再加上機器人在模仿動作時,也能夠有直接的參考來源:人類。

    再考慮「通用性」,打造人形機器人確實是一條比起打造有輪子的機器人,更能應用在多元場景中的方式。

    第二,馬斯克對於 Optimus 的未來想像是讓它成為一門好生意。

    隨著 2022 年,Opitmus 完成了機器人拿著箱子,他開始相信這將會成為 Tesla 的主要獲利來源。他對分析師說,「Optimus 人形機器人未來有可能比汽車業務還重要」。

    Tesla 希望開發 Optimus 來執行汽車組裝的基本任務,例如使用扳手、協助跑腿等。這是他們對於自動化領域的野心計畫之一,最終希望能夠實現自動駕駛的願景。這些是 2021 年他們對於 Optimus 的想像。

    到了 2022 年 9 月,馬斯克在人工智慧日發表會的前夕表示,「Optimus、全自動輔助駕駛系統和 Dojo 都是為了完成開發通用人工智慧的重大任務」。

    馬斯克的目標是儘快製造出有用的人形機器人,並以低成本的方式大量製造,價格會低於 2 萬美元。

    Optimus 開發過程困難重重

    不過,能夠理解有輪子的機器人比人形機器人更早出現的主因,是前者更好開發。這使得 Tesla 在開發人形機器人遇到重重的阻礙。打造一台如同人類身形的機器人,要克服的困難很多。

    比如說,我們習以為常的站立、坐下,這些動作不到幾秒就能完成。但在開發人形機器人的過程中,要考慮的是如何從坐下到站立的過程中,同時平衡頭部和身體的重量。又或者,如何讓人形機器人在邁出步伐時,維持平衡、不讓自己跌倒,這又牽涉了要維持腿部、身體之間的協調。

    以上都使得 Tesla 在開發 Optimus 的過程中,遇到許多困難、限制的。《馬斯克傳》中提到多個他們在開發 Optimus 的設計與討論:

    • 四根手指夠嗎?手部關節要 2 個還是 3 個?

    現在我們看到能夠比出愛心、做出抓握等精細動作的 Optimus,有五根手指。但實際上,一開始他們在研究手部、手指如何掌握電鑽時,小指沒有太大用處,所以大家覺得應該只需要四根手指就夠。

    結果他們發現少了小指後,有些動作不太能完成,加回了小指的設計。如果仔細觀察 Optimus 會發現它的小指幾乎快要跟無名指一樣長。他們刻意加長了小指,讓它更有用處。

    刪除和簡化,都是馬斯克在開發/爆能模式中重要的一環。這點也不難在手指、關節設計上看出來。如果觀察手指關節,會發現除了拇指之外,其他的手指都有 3 個關節。但 Tesla 工程師在設計 Optimus 的手指關節時,最後簡化成每根手指只有兩個關節。

    • 手掌要多長?

    接著,又有下個問題:手掌要多長,跟一般人一樣,還是要更長?

    這也呼應到打造人形機器人的所有標準,都需要是以人類使用的工具為出發。以掌握電動工具來說,如果當整個手掌都全部包覆住,這樣也可以減少拇指的負擔力量。於是,他們決定加長手掌底部,基本上 Optimus 的手部功能比人類要來得更強。

    • 如何讓 Optimus 的手指判斷壓力?

    人的手指除了可以在物體上施加壓力之外,也可以從中感知到物體的重量。但要如何讓 Optimus 的手指有效率地感受到壓力、判斷物體重量?這又是另一個他們遇到的問題。

    答案是電流。

    一開始討論了把電容器放在指尖、生物識別壓力感測器或晶片嵌入橡膠,或是在指尖植入迷你攝影機等想法,但是這些都有個問題,要再額外增加零件,也代表著成本要往上。

    最後,他們決定觀察手指關節致動器(這是一種機器人必須使用到的關鍵零組器,能夠模仿人類手指的動作,以達到抓取、持握等物體)的電流,因為電流會跟施加在指尖上的壓力有關。

    • 手腕要有幾種自由度?

    人類的手腕可以做到上下揮動、左右移動、轉動,基本上可以說有三種自由度。但機器人的手腕需要幾種自由度?2 種自由度的造價大約是 712 美元,但要做到 3 種自由度,需要額外增加致動器,這樣成本會直接提高到 1103 美元。

    「機器人應該擁有和人類一樣的能力,」馬斯克說。最終決定他們決定在機器人的手腕,做了 3 種自由度。當然,他也說未來要更有效率地達到這個目標,也就是用更便宜的成本來製作。

    • 如何平衡不用轉頭,卻能平衡身體和頭部?

    人類的走路步驟很複雜,如果觀察幼兒的發展過程,會發現次序先發展大肌肉,再到精細動作。走路也是,馬斯克觀察到當時快滿 2 歲的 X,先是從平足開始, 接著用腳趾走路,慢慢地發展到大人一樣走路的步伐。

    這也讓他們在設計機器人遇到一個問題,人可以很自然地平衡頭部、手臂和腿部的力量,讓自己維持平衡。但當今天周遭環境有變化,機器人需要轉動頭部,才能看到周圍環境,這也就容易讓它失去平衡。

    這裡的解法也很有趣:加裝更多攝影機,讓他不用轉頭。

    回顧機器人歷史:車廠成為共通應用場景

    不論是現在的 Optimus 人形機器人、波士頓動力 Boston Dynamics,甚至早期的機器人都有個共通點:應用在車廠場景。

    這裡,讓我們稍稍回顧一下機器人(簡短版)的發展歷史。

    1942 年,在俄羅斯出生的美國科幻作家 Isaac Asimov,他也是提出「機器人三大定律」的人。他在短篇小說《Runabout》中第一次用了「機器人」(robotics)一詞。

    隔了不到 15 年(1956 年),出現了第一台工業機器人「Unimate」,它是由 George Devol、Joseph Engelberger 共同為通用汽車(General Motors)開發出的機器人,主要是在汽車製造中執行電焊、處理零件等任務。

    時間快轉到 1980 年代,機器人在工廠中變得更加普遍。這時的機器人多負責執行裝配、焊接和檢查等工作。

    不難發現一件事,機器人的發展歷史和工業化緊緊相關。

    現在的應用場景又更多元,不僅有出現在工廠的機械手臂之外,更有遙控無人機、救災機器人、送貨機器人,甚至手術機器人等。

    波士頓動力的人形機器人 Atlas

    提到 Optimus 或是廣泛的人形機器人,都會不約而同講到波士頓動力的 Atlas。

    Altas 是款人形機器人,在他們釋出的影片中,可以輕鬆做到移動敏捷、搬運重物,也能完成跑酷、後空翻等動作。不過,他們並未提到未來會否開始銷售、何時將投入工廠工作等。

    雖然說人形機器人 Atlas 沒有明確的量產或銷售進度,但這家 1992 年成立的公司,一直以來有兩個主力產品:

    • 四足機器人 Spot:主要在廣泛的工廠、車間和建築工地等場景中,進行執行、安全檢查、研究等任務。
    • 輪足機器人 Stretch:最初設計概念是實現倉庫自動化,主要進行裝、卸貨,保持貨物流動。

    其中,讓我印象蠻深刻的案例是,Spot 用在日本福島第一核電廠的安全性檢查。2011 年發生福島核災後,日本官員和研究團隊對於核電廠的部分空間,是未知的。

    過去,他們曾透過有履帶或輪足的機器人等,想知道內部設施的最新狀況。但這都會面臨一個蠻大的限制或問題:移動性。

    這類機器人只要遇到樓梯,幾乎上不去,也不容易難以了解特定區域的概況。再加上,事故現場有碎片,這也加大輪足機器人在行進的困難度。

    這些大概是為什麼日本研究團隊在 2022 年找來了波士頓動力,希望透過 Spot 來幫助他們蒐集數據、拍攝影片、測量輻射劑量,並對蒐集的碎片樣本,進行輻射測試。

    就移動性的敏捷度來說,正是區分輪足機器人、四足機器人最大的不同。但在從四足跨到人形(雙足)機器人,真正的意義又是什麼?通用性。

    有趣的是,2020年現代集團宣布以 11 億美元收購波士頓動力,隔年從軟銀手中收購波士頓動力公司的控股權。

    機器人現在不單只是應用在車廠中,車廠開始逐步成為機器人公司。

    OpenAI 投資的挪威新創 1X

    提到 AGI 的想像,也無法繞開 OpenAI。

    過去,為了推進強化學習的技術,OpenAI 曾有過機器人研究團隊,透過類似人類的五根手指的機器,來解決魔術方塊等任務。

    但強化學習的成效有限,他們決定在 2020 年解散機器人研究團隊、決定不再進行相關研究。

    這並未澆熄 OpenAI 對於機器人的興趣。

    今年 3 月,OpenAI Startup Fund 領投了一家挪威機器人新創 1X Technologies 的 A2 輪融資(2350 萬美元)。其中,也有 Tiger Global 等跟投。

    OpenAI 是專注實現 AGI,但要能將 AI 的潛力發揮在物理世界中,並有機會與它互動,這軟硬整合的媒介正是「人形機器人」, 也就是 1x 想做的事。

    2014 年成立的 1X Technologies,旗下有兩個主力產品,分別是正在開發中的人形機器人 NEO、目前已上市的輪足機器人 EVE。


    結語

    「解決缺工問題」「大幅降低人力成本」等這些大概是討論人形機器人的內容,都會提到的理由。以解決問題為導向的提問,蠻容易找到為什麼而做、為什麼而創的可能性答案。

    但有其他的思考方向,或是解釋空間嗎?

    這題,在專注在人機互動研究員、曾參與 iPad、Apple Watch 產品設計與開發的 Bret Victor,他所寫的〈Inventing on Principle〉找到一些思考的方向和線索。

    他在這篇討論了他堅持的發明原則:創作者需要和打造的事物有直接的連結、產品的想法對他而言是最寶貴的事。

    「當我看到違反(創作者需要立即建立連結)這一原則時,我不認為這是一個機會。當我看到創作者受到工具的限制,他們的想法受到損害時,我不會說:哦,太好了,這是一個製作產品的機會。創業的機會。或者有機會做研究或為某個領域做出貢獻。

    我並不對找到一個要解決的問題感到興奮。我不是為了創造東西的樂趣而參與其中。想法對我來說非常寶貴。當我看到想法消失、死亡時,我感到很痛苦。我看到了一場悲劇。

    Bret 舉了一個例子,在電腦剛出現的年代一切都還正在萌芽,當時的軟體都圍繞在模式設計(mode)上,也就是人必須以特定操作方式與軟體或設備互動。

    當在文字編輯器中打字時,文字不會像現在這樣出現在螢幕上,而是要用命令模式,按一下 I 變成插入模式;移動文字要點 M 進入移動模式。

    這時,Larry Tesler 想像了一個沒有這些模式存在的世界,讓人可以更輕鬆增刪、拖拉文字。

    從結果來看,Larry 發明了剪下、複製、貼上的功能,解決大家在操作電腦的困難。

    但這故事只講了一半。當時大眾並不覺得模式是個問題,而是電腦就是這樣運作,要用它就需要按照這樣的方式。

    Bret 認為,Larry 做的第一件事是,他發現了「一個還沒在文化中被認為是錯誤的事」。

    他想像了一個不存在這個錯誤(模式)的世界,這想法存在於他的腦中,也成為他的發明原則,甚至他的推特帳號叫 @nomodes。

    放回到機器人的案例中,從輪足機器人、四足機器人、人形機器人的進展,解決人力缺口問題可能只說了一小部分的故事。

    或許,從輪足到四足機器人設想了盡可能受到障礙物限制更少的世界、提高了移動性的可能。從四足機器人再到人形機器人,設想了更多元的應用場景,提高更廣泛通用性的可能。

    解決問題可能是個很好解釋為何而發明的的切入點,但回到發明的本質卻不是一個容易遵循的原則,也限制了對於產品或工具的想像。

    友情推薦:《本質思維》

    《本質思維》是一份專寫科技、新創類的電子報。作者昱嘉也是台北文學獎第 20 屆的得主,在他寫電子報以前,我就曾讀過他的得獎作品,寫得很好看。

    印象最深刻的是,他討論 Airbnb 共同創辦人 Brian Chesky 在 Figma Config 中分享的「Designer Centerd」管理模式,之中與他的觀察、看法。

    他偶爾會寫到我比較少關注的新創,像是 Replit,都提供了不同的視角,讓人思考科技和商業策略。有興趣的朋友,不妨在 Substack官網訂閱他的電子報!

    分享至
    成為作者繼續創作的動力吧!
    從 Google News 追蹤更多 vocus 的最新精選內容從 Google News 追蹤更多 vocus 的最新精選內容

    VK科技閱讀時間 的其他內容

    你可能也想看

    發表回應

    成為會員 後即可發表留言
    © 2024 vocus All rights reserved.