国产亲妺妺乱的性视频播放,9797WWW成人影片,99精品国产在热久久无毒不卡 ,西方37大但人文艺术人山踪林

Uploads%2farticles%2f16403%2fvisionos custom spatial gesture happy beam 2x
|
2024-05-31

定義下一代人機交互范式,可能不是眼手交互、或手表和戒指等明星外設

Rokid 產品經理談智能眼鏡的人機交互

編者注:本文源自 Rokid 投稿,字里行間凝聚了 Rokid 團隊產品經理對人機交互的深刻洞見與前瞻性思考。創業十年,從 AI 到 AR,Rokid 始終秉持著對產品不懈的思索與探索精神。

隨著科技的迅猛發展,人機交互方式正經歷著前所未有的變革。從最初的鍵盤、鼠標到觸摸屏,再到現在的語音識別、手勢識別,每一次技術的躍遷都極大地提升了用戶體驗,拓寬了人與機器的交流邊界。在眾多創新技術中,眼手交互憑借其直觀、自然的特點,正逐漸成為行業關注的焦點。

作為一家專注于人機交互技術的產品平臺公司,Rokid 始終關注人機交互領域的前沿動態。近期,蘋果公司在眼手交互技術方面的探索引起了業界的廣泛關注。這一技術的出現,不僅為我們提供了全新的交互方式,更對未來人機交互范式的發展產生了深遠的影響。

本文將深入探討眼手交互技術的原理、應用現狀以及未來的發展趨勢。同時,我們也將分析眼手交互在這一領域的探索成果,并結合行業實際探討其能否定義下一個人機交互范式。需要強調的是,本文旨在技術探討,不涉及任何產品之間的比較和評價。我們希望通過本文,能夠為廣大用戶帶來有價值的信息和思考。

01?眼手交互,完美的輸入方式?

眼手交互被作為了 Apple Vision Pro 的基礎交互方式。第一波使用過的人,也都對這種提升效率的新交互方式感到驚訝。尤其是對于那些之前沒有接觸過 XR 設備的用戶來說,眼手交互無疑是一種全新的體驗。而這種交互方式之所以高效,主要得益于以下幾個方面:

1、焦點導航與注意力綁定:眼手交互將焦點導航和用戶的注意力綁定,省去了移動控件使光標瞄準目標的步驟。

2、光標導航與操作分離:通過分離光標導航和操作指令,減少了手部的運動,降低了長時間使用的疲勞感。

3、避免空間海森堡效應 (Heisenberg Effect of Spatial Interaction):在傳統的射線交互中,用戶在確認操作時手部的微小抖動可能會導致射線偏移,而眼手交互有效避免了這一問題。

1-%E7%9C%BC%E6%89%8B%E4%BA%A4%E4%BA%92

△ 眼手交互,https://developer.apple.com/design/human-interface-guidelines/gestures

Vision Pro眼手交互方案的大多數性能指標都令人感到滿意,但是在移動拖拽物體時會有點累,因為需要活動肘關節,調動小臂和部分大臂的肌肉。相比之下,Quest 的手柄方案只需要用到手腕和手指。在 SIGCHI 2024 會議上,META 也展示了一篇用微手勢代替物理搖桿的方案,就像用大拇指刷手機,幾乎不會產生疲勞。

Vision Pro 暫時沒有使用這種方案的原因可能是優先考慮更符合直覺的方式,盡量降低新用戶的學習成本,畢竟眼手交互還不是我們的習慣

2-STMG

△ STMG 微手勢集由針對食指橈側執行的拇指動作組成。它們包括拇指點擊和向左、向右、向前和向后四個方向的滑動。

眼動交互方面的專家 Ken Pfeuffer 在今年 2 月,也就是 Vision Pro 正式發售前,在 Arxiv 和 Medium 上發表了一篇論文,簡短總結了他們團隊過去的研究,也提出了眼手交互的設計原則和面臨的挑戰。

(參考鏈接:https://medium.com/antaeus-ar/design-principles-issues-for-gaze-and-pinch-interaction-a95e251169ae)

隨著 Vision Pro 的熱度下降,行業里也出現了一些對蘋果眼手交互質疑的聲音。那么,這次蘋果還能復制一次「多點觸控」式的成功?能再次引領和定義新一代人機交互范式嗎?

可以確定的是,眼手交互無法像多點觸控之于手機那樣覆蓋設備的所有使用場景,甚至打字等最基礎的交互體驗都不能算順暢。所以 Vision Pro 引入了手部直接交互作為代償,好在對于用戶來說,切換兩種交互模式的方法足夠直觀好用。

3-%E6%89%8B%E9%83%A8%E8%BF%91%E5%9C%BA%E4%BA%A4%E4%BA%92

△ 手部近場交互

讓我們來總結一下眼手交互目前遇到的挑戰:

1、學習成本:眼手交互作為一種全新的交互方式,與以往的交互習慣截然不同,用戶需要投入時間學習如何有效使用。

2、魯棒性問題:眼手交互的精確度有待提高,目前誤觸的可能性較大。用戶可能在不經意間將拇指靠近食指,而被系統誤識別為操作指令。而在弱光環境或攝像頭看不到的區域,又容易識別不到。

3、交互動作的局限性:目前支持的交互動作單一,僅支持由捏合動作(pinch)拓展的基本手勢。

4、觸覺反饋單一:現有的觸覺反饋主要來自于用戶自身的手部動作(指尖捏合時的觸感),缺乏更豐富的觸感體驗。

5、眼手協調性:在執行捏合等動作之前,用戶的注視點可能已經轉移到下一個目標上,尤其是在進行打字等需要快速連續操作的任務時非常明顯。一項對書法專家和新手在書寫過程中的眼動路徑研究發現,專家在書寫時的注視點始終領先于筆尖的位置,這表明在熟練的技能操作中,視覺注意力的分配是高度策略性的

那么是否存在更好的方法或設備可以解決這些問題,成為 XR 設備完美的輸入方式?

02?手表、手環、戒指,潛在的明星外設

未來最先可能接入 XR 系統的新外設是「手表/手環」類產品,業界各大廠商已經在此領域深耕多年,也展示過許多使用 demo。目前,技術方案主要分為兩大流派:一是以蘋果和 Double Point 為代表的 IMU 派,另一是以 Meta 為代表的 EMG派。手表的優勢在于不僅可以用于手勢識別,同時也具備日常生活中的實用功能,如健康監測、消息提醒等。

4-wa

△ Apple watch(左),META EMG 手環(右)

另一個被受矚目的形態是「戒指/指環」。戒指可以更精準細致地識別用戶手指末端的微手勢,使用方式可以更省力,也能有效避免誤觸。

5-US20230350503A1

△ US20230350503A1

相比蘋果目前的方案,手表和戒指這兩類外設不用依賴攝像頭。可以識別更多更細致的微手勢,從而減少疲勞,提高輸入效率和準確度。

但是在全天候的佩戴使用環境下,還是免不了會有誤觸的發生。比如在另一臺電腦上打字時可能不小心觸發手表的點擊功能,或者在吃水果時誤觸戒指,造成不必要的干擾。此外,僅憑單一外設,還無法徹底解決文字輸入的效率問題。

也有些人會期待更加激進的方式,比如通過腦機接口實現的意念輸入。這種輸入方式雖然能夠實現低疲勞和低延遲,但這類設備能在多大程度上讀取我們的思想,這點始終存疑。

6-%E8%BF%88%E5%90%91%E7%9C%BC-%E8%84%91-%E8%AE%A1%E7%AE%97%E6%9C%BA%E6%8E%A5%E5%8F%A3

△ 邁向眼-腦-計算機接口:將凝視與刺激前的消極性相結合,以實現 XR 中的目標選擇,doi.org/10.1145/3613904.3641925

考慮到電池續航、重量、體積等綜合因素,目前還沒有出現一種能夠完美解決輸入問題的理想外設。

現在讓我們回到第一性原理。

人機交互的核心是讓計算機快速準確的識別用戶意圖并提供反饋。

我們在操作設備時會面對兩個心理鴻溝:一個是執行的鴻溝,我們首先需要清楚如何操作;另一個是評估的鴻溝,我們需要清楚操作的結果。

7-%E6%89%A7%E8%A1%8C%E5%92%8C%E8%AF%84%E4%BC%B0%E7%9A%84%E9%B8%BF%E6%B2%9F

△ 執行和評估的鴻溝

要彌合這兩個鴻溝,關鍵在于建立雙向的理解和一致性。就像專業的騎手與他的馬能夠心意相通,能夠理解,甚至預測對方的每一個動作。

然而,我們普通人并不想深入了解計算機和系統的工作原理,也不愿意學習如何使用復雜的外設。所以壓力就給到計算機這邊,它需要更準確的識別用戶意圖,或者說更「智能」。

在缺乏用戶明確輸入指令的情況下,計算機只能嘗試通過「排除法」來猜測用戶的意圖。但由于信息不足,計算機往往難以做出正確的判斷,「誤觸」就這樣發生了。

那么,如果給計算機提供更多的信息,是否就能增強其理解能力,從而更準確地識別用戶意圖呢?

香農將信息定義為「不確定性的減少」。在信息論中,信息熵表示系統的初始不確定性。通過提供更多的用戶數據,計算機能夠減少對用戶意圖的條件熵,增加互信息,從而更準確地識別用戶意圖,提升系統的理解能力。更多的信息能夠顯著降低系統的不確定性,使得計算機對用戶行為的預測更加精確。

但這也要求計算機系統具備強大的數據處理能力和先進的算法,以應對復雜的信息。

03?人機交互離不開多模態交互方式

多模態交互(Multimodal Interaction)是指在人機交互過程中,同時使用多種感官和輸入方式進行交流和控制的技術。這種交互方式模仿了人類在自然環境中的交流方式,因為人類在交流時會同時使用視覺、聽覺、觸覺、手勢等多種感官和行為。

Vision Pro 的眼手交互就是一個典型的多模態交互方式。眼手交互起源于1981 MIT media lab 的一項多模態交互研究。Ken Pfeuffer 在他的博客里介紹了眼手交互的發展歷史。

(參考鏈接:https://medium.com/@ken.pfeuffer/history-of-eyes-and-hands-for-computer-control-fd3a62b56aa1)

我們靈活的雙手除了用來 "pinch" 還可以傳達更多的信息,比如手語。在多種文化中,人們在交談時通常會伴隨豐富的肢體動作,這不僅有助于消除語言交流中的歧義,也能增強系統對用戶意圖的理解。特別是在識別用戶情緒和壓力水平方面,肢體語言提供了重要的線索。

8-La_Chimera

△ 《奇美拉 La Chimera》(2023)劇照

Yuhan Luo 等人的研究發現,人們使用手勢表達情感時,手指指向方向和手勢強度與情感的情感和興奮水平有關。這表明手勢不僅是情感表達的工具,也是情感強度的指標。此外,他們的研究還指出,手勢的使用受到社會和文化背景的影響,這說明在設計多模態交互系統時,需要考慮不同文化背景下用戶的手勢習慣。

(參考鏈接:https://dl.acm.org/doi/10.1145/3613904.3642255)

9-pa

△ 單手手勢的表達潛力:一種情緒可以通過不同的手指方向、手掌方向、動作和力量來表達不同的方式。

除了眼手,在Vision OS中,用戶還可以結合視覺和聽覺模態進行交互。例如,在某些輸入框中,用戶可以通過注視選擇文本框,然后使用語音輸入文字,有效地結合了視覺的定位功能和語音的快捷輸入。

Ismo Rakkolainen 等人曾系統的總結了針對基于 XR 設備的多模態交互技術,并對基于人類感官的模態接口進行了分類。

(參考鏈接:https://www.mdpi.com/2414-4088/5/12/81)

10

恰巧 XR 設備的一大特色就是支持集成豐富的傳感器,且這些傳感器距離我們自身的五官很近。

增加了輸入源,計算機能獲取的信息量就能增加許多,多個通道的聯合輸入就可以讓計算機做 "排除法" 的時候正確率更高。

Jaewook Lee 等人在 SIGCHI 2024 會議上發表的 GazePointAR 多模態交互技術利用眼睛注視、指向手勢和對話歷史記錄來消除語音查詢的歧義。用戶可以通過注視或指向來提問。如下圖,當用戶詢問「這是什么?」時,GazePointAR 會自動將「這」替換為「帶有 Orion Pocachip Original 文字的包裝物品」,然后將其發送到大型語言模型進行處理和響應。處理后的結果會由文本轉語音引擎讀取,并以語音形式回答用戶的問題。

(參考鏈接:https://dl.acm.org/doi/10.1145/3613904.3642230)

11-%E4%B8%8E_GazePointAR_%E4%BA%A4%E4%BA%92%E7%9A%84%E7%A4%BA%E4%BE%8B

△ 與 GazePointAR 交互的示例

蘋果也在其專利 US20230409122A1 《基于手勢控制的智能設備操作技術》中描述了一項技術,允許用戶通過特定的手勢和語音命令與智能設備進行交互。例如,當用戶指向一個電話號碼并說出「呼叫這個號碼」,如下圖,系統會識別手勢指向的對象和語音命令,然后自動撥打電話。也可以控制臺燈的開關,或者調節亮度。

12
12-2

在完成相同任務時,如果用戶可以使用多模態輸入,控制會更加靈活。每種模態都有其獨特的特性和優勢,Vijay Rajanna 等人在一項打字輸入研究中發現,眼睛并不能像傳統的焦點導航器(如鼠標)那樣長時間穩定地保持在一點上。長時間刻意的控制眼睛盯著一個地方會很快導致疲憊。所以眼動只能用來做焦點導航,而其他比如單擊、激活等操作則需要額外的控制方式。多模態可以在執行任務時形成優勢的互補。眼動和手勢的組合輸入時,就可以完全放松的將手放在腿上或自然下垂。

04?多模態交互,可靈活切換是關鍵

在實際使用時,多模態的靈活切換同樣重要。Vision Pro目前提供的遠近場交互模式的切換也是個很好的例子,它允許用戶根據任務的需要和環境的變化,直觀的選擇合適的交互方式。

Rokid 自研的 AR 空間操作系統 YodaOS-Master 則支持 3 種焦點導航交互方式(手部追蹤近場交互、射線遠場交互和 Touchpad 光標間接交互)。在不同的使用場景下,用戶可以根據需要靈活切換。比如在游戲中使用射線可以提供最快速度的靈活響應。而在使用 2D 應用辦公時,Touchpad 光標能提供更穩定和精確的操作體驗,也更符合我們在電腦上辦公的操作習慣。

然而,多模態交互有時也會增加用戶的認知負荷。例如,組織語言進行說話是一個非常消耗大腦資源的活動,許多人在說話時不得不暫停手頭上的其他工作,無法一心多用。這可能是由于大腦用于說話和聆聽的部分也是用于解決問題的部分。

(參考鏈接:https://dl.acm.org/doi/fullHtml/10.1145/348941.348990)

這也可能是語音輸入遲遲沒有流行的原因之一。

13-AR_%E4%B8%AD_MMI_%E7%9A%84%E6%8B%9F%E8%AE%AE%E6%A1%86%E6%9E%B6

△ AR 中 MMI 的擬議框架

所以多模態交互的復雜度非常高。為了方便系統性的研究,韓國 CX Insight Team 的研究人員提出了一個在 AR 環境中的多模態交互框架,該框架考慮了人類信息處理的各個階段,以及輸入和輸出模態如何協同工作。研究還強調了組合不同的交互模態可能對任務效率和用戶性能產生的影響,并討論了如何在 AR 系統設計中實施這些理論。

(參考鏈接:https://dl.acm.org/doi/10.1145/3613905.3650874#d1e597)

以上的案例主要用到了視覺、聽覺和運動覺模態。但多模態交互并不僅限于此,XR 設備不僅能通過傳感器建立與我們自身的連接,還可以建立與我們所處的環境之間的連接。

通過傳感器實時采集環境音、攝像頭等環境數據。從而理解用戶當前所處的環境和用戶的需求、行為和情感。從而更好的和用戶 "對齊",提供更好的服務和反饋。比如 Google IO 2024 上發布的 Astra,宣傳片中女主問 Astra 她的眼鏡放在哪了,Astra 就通過回溯剛才攝像頭掃過的影像,告訴女主她的眼鏡放在桌角。

14-%E8%B0%B7%E6%AD%8CAI%EF%BC%9AProject_Astra_%E5%AE%A3%E4%BC%A0%E6%BC%94%E7%A4%BA

△ 谷歌AI:Project Astra 宣傳演示

在蘋果的專利 US20240005921A1《基于環境上下文的語音命令識別系統》也描述了這類使用場景:在智能家居設備中,用戶的語音命令可能存在多種解釋,比如家里可能有多個智能燈具,當用戶說「關燈」時,系統是無法確定用戶要關哪個燈的。但如果系統可以獲取環境上下文信息,當用戶在臥室發出「關燈」命令,系統就能將模糊的指令識別為關閉臥室的燈。

05?如需必要,勿增實體

觸覺反饋則對于提高用戶操作時自信很重要,尤其是在執行精細操作時。但我們不想隨身攜帶一堆需要充電的外設。如果能隨手拿起身邊的物體臨時當作有形控制器(Tangible User Interfaces)就太好了。這類「萬物皆備于我」的概念被稱為機會型界面。

機會型界面 (Oportunistic interface) 機會型是指主動發掘環境中的各種機會(比如物體、資源等),并將其臨時轉化為交互的媒介或方式,提高系統對環境的響應性。

META 研究團隊曾提出 ATUI:自適應可觸用戶界面(Adaptive Tangible User Interfaces)的愿景:不需要專門設計的硬件,而是通過識別環境中的物體及其特征,將這些物體臨時轉化為輸入設備或控制器,從而為用戶提供觸覺反饋和物理操作感。比如我想旋轉 3D 模型,只需用手旋轉附近的杯子即可。

15-ATUI_%E7%A4%BA%E4%BE%8B

△ ATUI 示例

Camille Dupré 等人也在 SIGCHI 2024 會議上展示了他們的 TriPad 技術,僅通過手部跟蹤將任意普通表面轉化為觸控板,其工作原理是通過 3 個指尖與表面接觸來創建平面。之后,用戶可以隨意使用這個表面進行觸摸輸入。

16

△ (1)所有手指都停留在目標表面上:在拇指、中指和小指定義的平面上出現一個灰色圓圈。 (2-3) 通過整只手進行快速點擊,創建觸摸平面。 (4) 表面現在可以用于觸摸輸入。

這樣都是很好的嘗試。進一步想,我們也可以在空白的桌子上創建一個任意大小的虛擬鍵盤,雖然沒有鍵程,但桌子的表面可以在打字時給手指敲擊時的反饋。

06?XR 設備的發展與挑戰

雖然目前我們在多模態交互領域的研究和應用仍然非常早期。但近年來 AI 技術的井噴,讓多模態交互技術站在了一個充滿無限可能的新起點上。比如 AI 大模型的流式視頻流輸入這樣的「科幻電影技術」也在前些天由 openAI 和 Google 同時實現了。

AI 的進步極大地推動了對來自不同模態的復雜數據的理解和處理能力,為多模態交互系統的設計和實現提供了強有力的技術支撐。

所以眼手交互最多只是「版本答案」,在多模交互的路上不會止步于此。以目前 AI 進化的速度,甚至我們可能很快就能走到 Licklider 所暢想的那個未來:

邁向自然、共生的關系 我的夢想是在不久的將來,人腦和電腦能密切協作,進行人腦想象不到的思考。
——李克萊德(J.C.R.Licklider),「人與電腦共生理論」(Man-Computer Symbiosis),1960

然而,在技術進步的另外一面,我們也不能忽視隱私和安全方面的挑戰。

多模態交互系統需要實時采集和分析大量用戶的個人數據,包括語音、面部表情、眼動軌跡以及環境影像等敏感信息。

隨著計算機系統變得更加智能化,它們對用戶意圖的解讀能力也在不斷提高。然而,這種智能化也需要是可控的。如果系統過度解讀用戶意圖,可能會引起用戶的不適或誤解,甚至導致信任危機,就像 HAL 9000 或 MOSS 的故事。因此,在設計多模態交互系統時,設計者也要充分考慮用戶的接受程度和舒適度,避免系統對用戶行為的過度干預或控制。

總的來說,在 XR 設備上,眼手交互不是最終答案,而是多模態混合交互的起點。

>>
Back to top btn
主站蜘蛛池模板: 海城市| 巴马| 扶绥县| 米脂县| 华坪县| 龙胜| 利津县| 阜新| 荣昌县| 精河县| 金寨县| 甘孜县| 库车县| 东乡族自治县| 秭归县| 乌鲁木齐市| 邵阳市| 基隆市| 包头市| 开鲁县| 昌平区| 大名县| 柞水县| 米脂县| 江陵县| 营口市| 黄大仙区| 蒙自县| 青川县| 孝感市| 金湖县| 阳原县| 岚皋县| 天台县| 高尔夫| 通渭县| 江安县| 建宁县| 开鲁县| 利津县| 疏附县|