在烹飪過程中,你是否曾想過AI能否預測下一步該做什么?這正是當代人工智能研究的前沿領域。傳統AI模型只能給出單一預測,但現實中烹飪的下一步往往有多種可能性。例如,在制作沙拉時,加完黃瓜后,下一步可能是加橄欖油、加鹽和胡椒,或直接上菜。GEPSAN模型突破性地解決了這一挑戰,它不僅能從視頻中理解當前烹飪步驟,還能生成多種合理且多樣化的未來步驟預測。這種創新方法改變了我們思考AI輔助烹飪的方式,為開發更智能、更實用的廚房助手鋪平了道路。
預測的新思路
在人工智能領域,程序步驟預測一直是個引人注目的研究方向。特別是在烹飪視頻這一場景中,預測下一步驟對開發智能廚房助手具有重要意義。想象一下,當你正在制作一道復雜的菜肴時,AI助手能夠預測你即將需要的下一種食材或工具,及時提醒你,這無疑會讓烹飪過程更加順暢。
傳統的步驟預測模型通常只能給出一個單一的預測結果。這些模型被設計成在給定前幾個步驟的情況下,生成一個最可能的下一步驟。舉例來說,當觀察到用戶已經"切菜"、"加入西紅柿"和"加入黃瓜"后,傳統模型可能會預測下一步是"加入橄欖油"。但實際上,烹飪是一個充滿變數的過程,下一步可能是多種多樣的。有些人可能會選擇先"加入鹽和胡椒"來調味,而其他人則可能直接"裝盤上菜"。
這種現實中存在的多種可能性,在技術術語中被稱為"多模態"問題。傳統模型忽視了這一特性,導致它們的預測往往不夠靈活,甚至可能生成一些不太現實的"中間態"預測結果,既不是這種做法也不是那種做法。
另一個重大挑戰是數據稀缺問題。帶有詳細標注的烹飪視頻數據集在規模上遠遠小于文本數據集。例如,一個典型的烹飪視頻數據集YouCookII僅包含2000個視頻,而文本形式的食譜數據集Recipe1M+則包含超過一百萬份食譜。這種數據不平衡使得直接從視頻中學習程序步驟變得極為困難。
面對這些挑戰,GEPSAN模型提出了一個創新性的解決方案:將未來步驟預測重新構思為對所有可能候選步驟分布的建模問題。具體來說,它不再嘗試生成單一的"最佳"預測,而是設計成能夠生成多個合理且多樣化的候選步驟。
這種方法更加符合現實世界中烹飪活動的本質。在實際烹飪中,下一步驟往往取決于個人喜好、地區文化差異或者當前可用的食材。通過生成多個可能的選項,GEPSAN能夠更好地捕捉這種內在的不確定性。
為了克服數據稀缺問題,GEPSAN采用了一種巧妙的遷移學習策略。它首先在龐大的文本食譜數據集上進行預訓練,從中學習程序活動的知識,然后將學到的知識遷移到視頻領域。這樣,即使視頻數據有限,模型也能夠有效地理解視頻中的烹飪步驟。
實驗證明,這種新的預測框架不僅能夠捕捉下一步預測中的多樣性,還能生成多個合理的未來預測。GEPSAN在YouCookII數據集上建立了新的最先進水平,在下一步預測任務中優于現有的基準模型。更令人驚喜的是,該模型可以成功地從文本零樣本遷移到視頻領域,即無需微調或適應,就能從視頻中產生高質量的未來步驟預測。
模型三大核心
GEPSAN模型的設計理念建立在捕捉未來步驟多樣性的基礎上,其核心架構由三個關鍵模塊組成:單模態編碼器、配方編碼器和指令解碼器。這種設計使模型能夠從視頻或文本輸入中理解當前的烹飪過程,并生成多種合理的下一步驟預測。
單模態編碼器是模型的入口,負責處理輸入的指令步驟。這些步驟可以是文本形式(如"將雞蛋打入碗中")或視頻片段。與以往研究不同,GEPSAN不是從零開始訓練這個編碼器,而是采用了預訓練的UniVL編碼器。這個編碼器已經學會了將視頻和文本映射到同一個特征空間,這意味著文本和視頻在這個空間中有著相似的表示方式。這一設計選擇為后續的零樣本模態遷移(從文本到視頻)奠定了基礎。
配方編碼器是GEPSAN的核心組件,它接收單模態編碼器產生的特征序列,并輸出多個可能的下一步驟嵌入。它由兩部分構成:上下文編碼器和條件變分自編碼器(CVAE)。
上下文編碼器采用變換器(Transformer)架構,它能夠有效處理長序列輸入。在處理時,它匯總過去的指令步驟嵌入成一個單一的上下文向量。為了確保只考慮過去的歷史,上下文編碼器使用了因果注意力機制,即在預測第t步時,只能看到前t-1步的信息。
CVAE是實現多樣化預測的關鍵。它由后驗網絡和預測頭組成。在訓練階段,后驗網絡處理上下文向量和真實的下一步嵌入,預測出一個后驗分布。從這個分布中采樣一個潛變量,與上下文向量一起傳遞給預測頭,生成預測的下一步嵌入。同時,模型會最小化預測的后驗分布與標準高斯先驗之間的KL散度。在推理階段,舍棄后驗網絡,直接從標準高斯分布中采樣潛變量,結合上下文向量生成下一步預測。
這種設計實質上是學習了一個條件分布,即給定觀察到的步驟歷史,下一步的分布是什么。通過從這個分布中多次采樣,模型能夠生成多個不同但都合理的下一步預測。
指令解碼器是模型的最后一個組件,它將預測的下一步嵌入轉換為自然語言描述。它采用了簡單但有效的LSTM架構,而不是更復雜的變換器,因為實驗表明LSTM在這個任務上表現更好。
GEPSAN的訓練目標結合了三個不同的損失函數,以更好地捕捉下一步的概率分布,提供良好的句子解碼,并穩定訓練過程。條件證據下界(ELBO)是用于訓練CVAE的主要損失,它負責捕捉與下一步預測任務相關的多模態分布。輔助目標用于簡化CVAE的訓練過程,而句子重構目標則幫助指令解碼器更好地將嵌入轉換為自然語言。
由于帶注釋的視頻烹飪數據集規模有限,GEPSAN首先在大型文本食譜語料庫上進行預訓練。具體來說,它使用包含超過一百萬份食譜的Recipe1M+數據集來學習程序知識。完成預訓練后,模型可以適應以視頻作為輸入,或者通過少量微調,或者完全零樣本(無需任何調整)。
這種靈活的設計使GEPSAN能夠輕松應對不同的輸入模態,并在保持預測多樣性的同時,提供高質量的下一步預測。實驗結果表明,這種方法不僅在YouCookII數據集上建立了新的最先進水平,而且能夠成功地從文本零樣本遷移到視頻領域,無需任何微調就能從視頻中產生高質量的未來步驟預測。
實驗見真知
GEPSAN模型的性能表現需要通過嚴格的實驗來驗證。在實驗設計中,研究團隊選擇了兩個主要數據集:Recipe1M+和YouCookII。Recipe1M+是一個包含超過一百萬份食譜的大型文本數據集,用于模型的預訓練階段;而YouCookII則是一個視頻數據集,包含2000個長時間未剪輯的烹飪視頻,來自89種不同的食譜。每個視頻都附有一系列描述烹飪步驟的自然語言指令,以及視頻中每個步驟的開始和結束時間標記。
為了全面評估GEPSAN的性能,研究團隊采用了多種評估指標。這些指標包括BLEU1、BLEU4和METEOR分數,它們是衡量生成文本與參考文本相似度的標準指標。與以往研究不同,GEPSAN使用了標準的語料級計算方法來計算這些分數,而不是句子級分數的平均值,這提供了更準確的評估結果。
除了這些標準指標外,研究團隊還計算了模型在預測地面真實句子中包含的成分(ING)和動詞(VERB)方面的召回率。這些召回率是更強的性能指標,因為它們強調的是預測動作的多樣性,而不僅僅是句子風格的多樣性。
GEPSAN模型的一個獨特之處在于它能夠預測多個可能的下一步驟。這與傳統模型只能給出單一預測形成鮮明對比。為了在多預測設置下評估模型性能,研究團隊從k個預測中選擇與地面真實句子最接近的一個進行評分。接近度是通過計算預測句子與地面真實句子之間的Jaccard相似度(交集與并集的比率)來確定的。
在YouCookII數據集上的實驗結果令人印象深刻。GEPSAN在所有評估指標上都超過了基準模型,無論是在零樣本模態遷移設置還是在視頻微調設置中。特別值得注意的是,多預測版本的GEPSAN(記為GEPSAN(M))在所有指標上都優于單預測版本(GEPSAN(S)),這證實了捕捉任務中固有不確定性的重要性。
在未見過的食譜分割上,GEPSAN(M)在視頻輸入的情況下實現了31.6%的成分召回率和37.8%的動詞召回率,這比基準模型分別高出3.8和6.2個百分點。在BLEU1、BLEU4和METEOR分數上,GEPSAN(M)也顯著優于基準模型。這些結果突顯了GEPSAN在理解烹飪過程和預測合理下一步方面的強大能力。
更令人驚訝的是,GEPSAN能夠在零樣本模態遷移設置中取得競爭性能。這意味著模型在僅用文本數據訓練后,能夠直接處理視頻輸入并生成高質量的下一步預測,而無需任何額外的微調。這一能力歸功于GEPSAN精心設計的架構,特別是使用了預訓練的UniVL編碼器,它將視頻和文本映射到同一特征空間。
研究團隊也在文本輸入情況下評估了GEPSAN的性能。正如預期的那樣,文本輸入的結果優于視頻輸入,因為在這種情況下沒有模態變化。不過,微調前后的結果表明,兩個數據集的分布存在差異。總體而言,這些結果突顯了GEPSAN模型的靈活性,它能夠在零樣本設置中輕松使用文本或視頻輸入,而這是以往工作所不具備的。
研究團隊還進行了消融研究,評估了不同訓練目標的貢獻。結果證實了輔助損失在訓練CVAE方面的關鍵作用,如前所述。預測損失也在提升性能方面發揮了重要作用。值得注意的是,移除KL散度會導致模型發散。盡管重構損失似乎對模型貢獻不大,但研究團隊注意到它在訓練早期階段起到了重要作用,有助于更快更平穩的收斂。
此外,研究團隊還比較了Recipe1M+預訓練階段的性能。在單預測設置下,GEPSAN的表現與基準相當或略遜,這表明在大型文本數據集上訓練時,從頭學習文本編碼器可能比使用預訓練的UniVL編碼器更有益(盡管在視頻測試中情況相反)。然而,即使使用次優的文本編碼器,GEPSAN在多預測設置下也優于基準,這表明該模型能夠在這種設置下捕捉任務的多模態特性。值得注意的是,如果直接在YouCookII上從頭訓練模型,性能會大幅下降,這表明了在視頻領域數據稀缺的情況下,預訓練階段的重要性,以及在如此小的數據集上訓練生成模型的難度。
預測新可能
GEPSAN模型最大的亮點在于它能夠生成多種合理的未來步驟預測。這種能力在定性結果分析中得到了充分展示。研究團隊提供了幾個示例,展示了GEPSAN在視頻輸入情況下的零樣本模態遷移性能,無需任何微調。
例如,在一個烹飪視頻序列中,模型觀察到前幾個步驟后,能夠生成多個合理的下一步預測。這些預測不僅在語義上多樣化,而且都是在當前烹飪情境下合理的選擇。比如,在一個制作辣椒的視頻中,當觀察到"取2個辣椒和1個青椒,取出種子并切成兩半"和"在烤箱中以400度烤30分鐘"等步驟后,GEPSAN能夠預測多個可能的下一步,如"在辣椒烤的時候,準備莎莎醬"或"辣椒應該變軟,皮應該變焦"。
這種多樣化預測的能力對于實際應用非常有價值。想象一個烹飪AI助手,它不僅能夠識別用戶當前正在執行的步驟,還能預測多個可能的下一步。這樣,無論用戶選擇哪條路徑繼續烹飪,助手都能提供相關的支持和建議。
研究團隊還分析了不同訓練目標組件對模型性能的貢獻。結果表明,輔助損失在訓練條件變分自編碼器(CVAE)方面起到了關鍵作用。這個損失函數促使CVAE重構下一步的嵌入表示,簡化了句子解碼過程。預測損失也在提升性能方面發揮了重要作用,特別是在捕捉下一步分布的多樣性方面。
KL散度是另一個關鍵組件,如果移除它,模型會出現發散現象,無法有效訓練。雖然重構損失在最終訓練結果中的貢獻看似不大,但研究團隊注意到,它在訓練早期階段起到了穩定作用,有助于更快更平穩的收斂。
預訓練階段的重要性也得到了明確驗證。如果直接在規模有限的YouCookII數據集上從頭訓練模型,性能會大幅下降。這表明在視頻領域數據稀缺的情況下,利用大型文本數據集進行預訓練是至關重要的。這種"先文本后視頻"的訓練策略使GEPSAN能夠有效克服視頻注釋數據不足的問題。
GEPSAN模型在多預測設置下的卓越表現證明了捕捉任務中固有不確定性的重要性。傳統的單預測模型往往會產生"平均化"的預測,這些預測可能在技術上是合理的,但缺乏特定性和實用性。相比之下,GEPSAN通過生成多個具體且多樣化的預測,更好地反映了現實世界中烹飪步驟的多樣性。
未來研究方向可能包括進一步提升預測的多樣性和質量,擴展到更復雜的程序性任務,以及開發更適合評估多樣化預測的數據集和指標。目前的評估方法主要基于與單一地面真實值的比較,這在本質上限制了對多樣化預測質量的全面評估。創建包含多個合理地面真實值的數據集將有助于更準確地評估這類模型。
GEPSAN的成功為未來的步驟預測研究開辟了新的方向。它表明,在開放世界的下一步預測中,自動考慮多種可能的未來實現是一個有前途的方向。這種方法不僅提高了預測的質量和實用性,還更好地符合了現實世界中任務的多樣性和不確定性特性。
參考資料
Abdelslam, M. A., Rangrej, S. B., Hadji, I., Dvornik, N., Derpanis, K. G., &; Fazly, A. (2022). GEPSAN: Generative Procedure Step Anticipation in Cooking Videos. International Conference on Computer Vision (ICCV).
Sener, F., &; Yao, A. (2019). Zero-shot anticipation for instructional activities. In Proceedings of the IEEE/CVF International Conference on Computer Vision.
Liu, Y., Albanie, S., Nagrani, A., &; Zisserman, A. (2019). Use what you have: Video retrieval using representations from collaborative experts. In British Machine Vision Conference.
Zhou, L., Xu, C., &; Corso, J. J. (2018). Towards automatic learning of procedures from web instructional videos. In Thirty-Second AAAI Conference on Artificial Intelligence.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.