ALS (肌萎縮性脊髓側索硬化癥) 患者常因運動能力受損而缺乏有效的溝通方式。目前,眼動追蹤成為其主要人機交互界面。然而,眼動打字速度遠低于正常語音速度,這給患者生活帶來了負面影響。盡管腦機接口(BCI)技術提供了提高打字速度的可能,但因其侵入性限制了應用范圍。加速增能和替代性溝通(AAC)中的文本輸入技術對于改善嚴重運動障礙個體的生活質量至關重要。
本文介紹了 SpeakFaster,一種基于LLM(大語言模型)的用戶界面。SpeakFaster能以高度縮略的形式輸入文本,并減少運動操作量高達57%,且已在離線模擬中表現出良好的性能。非AAC用戶測試表明, SpeakFaster的整體打字速度與傳統智能鍵盤相當,重要的是,運動節省操作十分顯著。相關研究成果于2024年11月發表于《Nature Communication》期刊上。
SpeakFaster用戶界面
傳統的基于n-gram語言模型的單詞補全和預測技術依賴于單詞對少數前置單詞的統計關系。而LLMs能夠利用更廣泛的上下文,涵蓋用戶輸入的數十至數百個前置單詞以及對話的先前輪次。先前研究表明,經過微調的640億參數Google LaMDA模型能夠將單詞首字母縮略形式(如“ishpitb”)擴展為完整的短語(如“I saw him play in the bedroom”)。在提供對話上下文的情況下,其前五項精確匹配率可達到48%至77%。然而,對于較長或更復雜的短語,精確匹配率較低。盡管取得了顯著的成果,但比較實用的解決方案還需確保在縮略擴展(AE)初次失敗時,用戶能夠在后續嘗試中輸入任意短語,避免在界面中遇到無法繼續輸入的“死胡同”問題。這要求系統設計時考慮用戶的靈活性,并確保用戶體驗的流暢性和連續性。
Fig1. SpeakFaster UI中縮寫文本輸入的主要交互途徑:僅首字母路徑。
為此,研究人員開發了一個用戶界面(UI)和兩個經過微調的LLMs。LLM "KeywordAE" 能夠處理包含首字母縮寫和完整或部分拼寫單詞混合的縮略形式,如圖2所示,使其功能超越了以往研究中的LLM。LLM "FillMask" 能夠在給定首字母的情況下,利用周圍單詞的上下文提供可選的完整單詞,如圖3所示。這兩個模型都是通過大約180萬個獨特的 {上下文, 縮略詞, 完整短語} 三元組進行微調的。
Fig2. 關鍵詞縮寫擴展(KeywordAE)UI途徑。
同時,UI包括:首字母縮略(Initials-only AE)、關鍵詞縮略(KeywordAE)和填充掩碼(FillMask),以優化文本輸入體驗。首字母縮略路徑適用于簡短、可預測的短語輸入,用戶通過輸入首字母,UI調用KeywordAE LLM提供可能的短語選項。若匹配成功,用戶可通過點擊“揚聲器”按鈕快速選擇并完成輸入。若首字母縮略未能找到目標短語,用戶可轉向使用KeywordAE或FillMask路徑。KeywordAE支持逐步拼寫單詞,FillMask則適用于短語中僅一個單詞出錯的情況,且允許用戶在點擊接近匹配的短語后選擇替代單詞。SpeakFaster UI允許在KeywordAE和FillMask之間切換,但反向切換不可行,因為FillMask適合用于短語輸入的最后階段。
Fig3. FillMask UI 路徑。
模擬結果
隨后,研究人員通過在Turk對話語料庫(TDC)上的測試數據集進行模擬,以評估SpeakFaster UI在文本輸入中節省運動操作的上限。模擬過程中,首先嘗試無關鍵詞的自動擴展(AE)。若未找到匹配短語,則測試三種交互策略:
策略1:逐步拼寫更多單詞,反復調用KeywordAE,直至找到匹配短語。
策略2:類似策略1,但當最佳選項只剩一個錯誤單詞時,使用FillMask替代KeywordAE。
策略2A:策略2的變體,更積極地使用FillMask,當最佳選項中剩下兩個或更少的錯誤單詞時立即使用。
Fig4. 關鍵詞縮寫擴展(KeywordAE)和FillMask LLM 輔助短語輸入的模擬策略。
結果發現,策略2的KSR(節省按鍵率)優于策略1,表明結合使用FillMask和KeywordAE可以減少運動操作,更快地找到正確單詞選項。然而,策略2A的激進使用FillMask會導致KSR降低。KSR隨LLM選項數量的增加而增加,但在五個選項時趨于平穩,支持了UI設計中包括五個最佳選項的決策。當對話上下文可用時,KeywordAE可以更有效地找到匹配短語,而無需多次LLM調用。對話上下文的缺失會顯著降低這一比例,這突顯了上下文對LLM預測的重要性。
模擬結果表明,上下文感知的AE和FillMask可以節省30-40%的運動操作,但實際性能可能受到視覺和認知負擔、人為錯誤以及云中LLM調用帶來的網絡延遲的影響。因此,通過實證用戶研究來測試LLM驅動的AE文本輸入范式在SpeakFaster中的實際性能是必要的。隨后,研究人員進行了針對非AAC用戶和ALS患者的眼動輸入用戶的實驗室和現場研究。
Fig5. 模擬結果表明,SpeakFaster UI可大幅運動節省。
用戶研究概述
研究人員為評估SpeakFaster UI的認知和時間成本以及其對文本輸入速度的影響,對兩組用戶進行了測試。實驗分為腳本化階段和非腳本化階段。腳本化階段包含10個TDC語料庫中的對話,每個對話6個回合。用戶使用常規鍵盤(如Gboard或Tobii眼動鍵盤)與SpeakFaster UI輸入文本。在非腳本化階段,用戶與實驗者進行五個六回合的自發文本對話,用戶開始時使用首字母縮寫,隨后根據需要選擇KeywordAE或FillMask進行輸入。所有參與者在實驗前觀看演示視頻并進行練習。非AAC用戶進行了五次練習對話,眼動用戶則進行了兩天、每天四小時的練習。
非AAC用戶的SpeakFaster文本輸入速率與基線相似
19名非AAC用戶被隨機分為兩組:單指組(9人)與無約束組(10人)。單指組僅使用食指輸入,無約束組則自由使用雙手。
文本輸入準確度:在腳本化對話中,SpeakFaster和Gboard基線的文本輸入準確度沒有顯著差異。單指組的平均單詞錯誤率(WER)在基線和SpeakFaster條件下分別為1.55%和2.53%,無約束組分別為3.96%和2.89%。雙向線性混合模型分析顯示,姿勢和UI對WER沒有顯著主效應且二者的交互作用也不顯著。
文本輸入速率影響:在腳本化對話中,SpeakFaster UI提升了文本輸入速率約13%,但在非腳本化對話中,速率下降約10%。UI與對話類型間的交互作用顯著。三向線性混合模型未顯示其他顯著主效應或交互作用。
SpeakFaster顯著的運動節省
盡管SpeakFaster在文本輸入速率方面的影響復雜,與基準相比未出現整體顯著變化,但它對鍵盤速度比率(KSR)產生了顯著的正向影響。在腳本化和非腳本化對話中,SpeakFaster UI范式均顯著增加了KSR,表明用戶通過使用該系統可以節省運動操作。
與Gboard基準相比,SpeakFaster在腳本化對話中平均KSR增加了約56.4%,在非腳本化對話中增加了約45%。這些結果表明,無論對話類型如何,SpeakFaster都能有效減少用戶的按鍵操作。圖6C面板顯示,用戶成功僅使用首字母AE調用輸入句子的對話回合百分比與腳本化對話中的模擬結果相當。然而,在非腳本化對話中,單一AE調用成功的句子百分比略低,平均為65%,這可能是非腳本化文本內容與訓練模型的腳本化對話內容之間存在不匹配造成的。
Fig6. 非 AAC 用戶研究結果表明,KSR有所提高,但文本輸入率的變化不一。
模擬準確預測用戶的按鍵節省量
實驗室研究表明,用戶的鍵盤速度比率(KSR)可以通過模擬高精度預測。模擬結果能夠準確預測用戶的KSR值,尤其在腳本化對話中表現最佳。用戶在非腳本化對話中的表現偏差更大,可能與認知負荷和誤操作有關。非腳本化對話的仿真KSR顯著低于腳本化對話,顯示出運動節省效應的領域不匹配。盡管存在領域差異,SpeakFaster仍有效提高非腳本化對話的KSR,表明其適應性強。
Fig7. 模擬結果很好地預測了 SpeakFaster 中的用戶行為。
SpeakFaster中用戶交互的時間特性
IKI是指用戶通過軟鍵盤輸入兩個連續按鍵之間的時間間隔,不包括非按鍵操作和自動補全。結果發現,使用SpeakFaster UI時,IKI顯著高于基線UI。在非腳本化對話中,IKI顯著增加,相比之下,腳本化對話下的IKI增加較小。這可能是由于,在自由形式對話過程中需要使用縮寫機制時,用戶的認知負荷會增加,導致更多的時間消耗。
對于非AAC用戶,SpeakFaster UI基于LLM的文本輸入顯著提高了按鍵節省率,節省幅度達到50%。相比傳統移動輸入方式,這一提高表現尤為突出。盡管在腳本化對話中,用戶輸入速度提高了約13%,在非腳本化對話中卻出現了約10%的速度下降,這表明UI引入的認知負擔與自發文本輸入的復雜性之間存在一定的互動影響。
Fig8. 在使用 SpeakFaster UI 的過程中,評估和選擇 LLM 提供的選項耗費了大量時間。
SpeakFaster通過微調的大型語言模型(LLM)增強了眼動輔助溝通(AAC)系統的短語擴展功能,并顯著提高了文本輸入速度。該系統通過減少掃描次數,優化了輸入體驗,并能夠應用于不同的AAC輸入方式。未來的研究將進一步優化LLM的容錯性,以擴展到更多語言和設備,提升其在不同用戶群體中的可用性。
Reference:
https://www.nature.com/articles/s41591-024-03341-8
翻譯整理:BrainGeek
僅用于學術分享,若侵權請留言,即時刪侵!
歡迎加入腦機接口社區交流群,
探討腦機接口領域話題,實時跟蹤腦機接口前沿。
加微信群:
添加微信:RoseBCI【備注:姓名+行業/專業】。
歡迎來稿
1.歡迎來稿。投稿咨詢,請聯系微信:RoseBCI
點擊投稿:
2.加入社區成為兼職創作者,請聯系微信:RoseBCI
一鍵三連「分享」、「點贊」和「在看」
不錯過每一條腦機前沿進展
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.