網易首頁 > 網易號 > 正文申請入駐

AI圖像生成的新突破：A-STAR如何讓文本到圖像轉換更精準忠實？

2025-05-17 23:41:32　來源: 清風鑒史

廣東舉報

分享至

在當今AI圖像生成領域，文本到圖像的轉換技術已經取得了令人矚目的成就，生成作品的質量越來越高。然而，這些技術仍面臨一個關鍵挑戰：它們往往無法忠實捕捉輸入文本中的所有概念。一張＂海豚躍出海面，背景有一艘船＂的生成圖像中，船可能莫名消失；＂青蛙和皇冠＂的提示詞可能只生成青蛙而忽略皇冠。為何會出現這種現象？研究者們發現了擴散模型中隱藏的兩個關鍵問題，并提出了一種全新的解決方案——A-STAR技術，它在不需要重新訓練模型的情況下，通過注意力分離和保留機制，顯著提高了生成圖像與文本描述的語義一致性。這一突破性方法，正在改變我們對AI圖像生成的期待。

圖像生成的盲點

近年來，文本到圖像的生成技術經歷了飛速發展。特別是潛在擴散模型（Latent Diffusion Models）如Stable Diffusion的出現，讓普通人也能輕松通過文字描述創造出精美圖像。這些模型能理解復雜的文本描述，并生成相應的視覺內容，從風景到人物，從現實到幻想，幾乎無所不能。

但使用過這類工具的人都曾遇到過一個令人煩惱的問題：當提示詞包含多個概念時，生成的圖像往往會＂選擇性忽視＂部分內容。2023年Adobe研究團隊進行的實驗顯示，在使用＂一只海豚從海洋中躍起，背景有一艘船＂這樣的提示詞時，Stable Diffusion常常只生成海豚，而完全忽略了船的存在。類似地，當要求生成＂一只灰熊在清澈的河流中捕捉三文魚，周圍是森林＂時，三文魚往往會神秘消失。

為什么會出現這種現象？研究人員通過分析擴散模型的內部機制找到了答案。擴散模型在生成圖像時，會通過一個叫做＂跨注意力機制＂（cross-attention）的結構來理解文本中的各個概念并將它們映射到圖像空間。這個過程會產生所謂的＂注意力圖＂（attention maps），顯示模型在圖像的哪些區域關注哪些文本概念。

通過對這些注意力圖的深入分析，研究人員發現了一個有趣的現象：當提示詞包含＂貓和狗＂這樣的多個概念時，使用不同的隨機種子進行生成，超過80%的情況下，最終圖像會缺失其中一個概念。只有極少數情況下，兩個概念才會同時出現在生成結果中。

這表明模型本身并非完全無法理解多概念的要求，而是在生成過程中某些環節出了問題。具體來說，當輸入＂一只貓和一只狗＂時，對于大多數隨機種子，模型只生成貓或只生成狗，很少能同時生成兩者。這種現象引發了研究人員的好奇：擴散模型在內部究竟發生了什么，導致它＂選擇性地遺忘＂部分概念？

研究人員對模型的注意力機制進行了深入調查，發現了兩個關鍵問題。第一個問題是注意力圖的重疊。當模型處理＂一只熊和一只烏龜＂這樣的提示時，熊和烏龜的注意力區域在圖像空間中大量重疊，這導致模型無法清晰區分兩個概念，最終通常只會生成其中一個（通常是視覺上更突出的那個）。

第二個問題則與擴散模型的去噪過程有關。擴散模型生成圖像是一個從隨機噪聲逐步去噪到清晰圖像的過程。研究人員發現，在去噪的早期階段，模型確實嘗試捕捉所有概念（如＂狗＂、＂海灘＂和＂雨傘＂），但隨著去噪過程的進行，某些概念的信息會逐漸丟失。到了最終階段，可能只有部分概念（如＂狗＂和＂海灘＂）被保留，而其他概念（如＂雨傘＂）則完全消失了。

這種現象解釋了為什么擴散模型在處理多概念提示詞時表現不穩定。它不是不理解這些概念，而是在生成過程中＂忘記＂了部分信息。這就好比一個畫家本想畫一幅包含熊和烏龜的畫，但在繪制過程中逐漸忘記了烏龜的存在，最終只留下了熊。

這些發現為改進文本到圖像生成模型提供了重要線索。如果能解決注意力重疊和信息衰減這兩個問題，就有可能讓模型更忠實地反映提示詞中的所有概念，從而生成更符合用戶期望的圖像。

注意力的藝術

針對前面發現的兩個關鍵問題，Adobe研究團隊提出了一種名為A-STAR的創新解決方案。這個名稱代表＂測試時注意力分離與保留＂（Test-time Attention Segregation and Retention），它通過兩個核心機制解決了擴散模型中存在的缺陷。

第一個核心機制是＂注意力分離＂（Attention Segregation）。為了理解這個機制，我們可以想象一個畫家正在畫一幅包含熊和烏龜的畫。如果畫家把熊和烏龜畫在畫布的同一區域，觀眾可能會因為視覺上的混淆而只注意到其中一個動物。而更好的做法是，把熊和烏龜分別畫在畫布的不同區域，這樣兩者都能被清晰識別。

A-STAR的注意力分離機制正是基于這個原理。它通過一個專門設計的損失函數，顯式減少了不同概念在注意力圖上的重疊區域。具體來說，對于提示詞中的每對概念（如＂熊＂和＂烏龜＂），A-STAR計算它們注意力圖的交集與并集的比值，并盡量減小這個值。這就像告訴模型：＂熊和烏龜應該出現在圖像的不同位置，不要把它們混在一起。＂

研究結果顯示，這種做法有效減少了概念間的混淆。在生成＂熊和烏龜＂的圖像時，基礎的Stable Diffusion模型往往只能生成熊，而A-STAR則能同時生成兩者，并且清晰分開。即使是其他改進方法如Attend-Excite，雖然能保證所有概念都有一定的注意力激活，但無法解決重疊問題，導致生成效果不佳。

第二個核心機制是＂注意力保留＂（Attention Retention）。回到畫家的比喻，想象畫家最初打算畫熊、烏龜和一片森林，但在繪畫過程中逐漸忘記了森林的部分，最終只畫出了動物。A-STAR的注意力保留機制就像一個提醒系統，確保畫家不會忘記初始的構想。

具體來說，A-STAR通過另一個損失函數，確保每個概念在去噪過程的各個時間步驟中都保持較高的注意力激活。當模型從一個時間步驟t移動到下一個時間步驟t-1時，A-STAR會計算每個概念在當前時間步驟的高激活區域，并確保這些區域在下一個時間步驟中也保持高激活狀態。

這種做法有效解決了信息衰減問題。以＂狗在海灘上，旁邊有一把雨傘＂為例，基礎的Stable Diffusion模型在去噪初期會嘗試捕捉所有三個概念，但隨著過程進行，＂雨傘＂的信息逐漸丟失。而使用A-STAR后，所有概念的信息都被完整保留到了最終階段，生成的圖像因此包含了狗、海灘和雨傘三個元素。

A-STAR的一個重要特點是，它不需要重新訓練現有的擴散模型。這兩個損失函數可以直接應用于推理階段（即生成圖像時），通過調整每個去噪步驟中的潛在代碼來引導生成過程。這種＂測試時優化＂方法大大降低了實施成本，使其更容易被廣泛采用。

具體的實現過程是這樣的：在每個去噪時間步驟t，A-STAR計算當前潛在代碼zt對應的注意力圖，并基于注意力分離和注意力保留損失函數計算一個梯度方向。然后，A-STAR沿著這個方向更新潛在代碼，得到一個調整后的z＇t，用于下一個去噪步驟。通過這種迭代過程，A-STAR確保了最終生成的圖像能夠忠實反映提示詞中的所有概念。

實驗結果表明，A-STAR在處理各種類型的多概念提示詞時都表現出色。不論是＂動物-動物＂組合（如＂貓和鳥＂）、＂動物-物體＂組合（如＂黃碗和烏龜＂），還是＂物體-物體＂組合（如＂紅椅子和藍桌子＂），A-STAR都能生成包含所有概念的高質量圖像，明顯優于基礎的Stable Diffusion模型和其他改進方法。

更重要的是，A-STAR不僅能確保所有概念出現在生成圖像中，還能正確綁定概念的屬性。例如，在生成＂一只鳥和一把紅椅子＂時，其他方法可能會錯誤地將＂紅色＂屬性也應用到鳥上，而A-STAR能夠正確地只將紅色屬性綁定到椅子上。這種精確的概念和屬性處理能力，使A-STAR生成的圖像更加符合用戶的意圖和期望。

效果勝于雄辯

A-STAR技術提出后，研究團隊進行了大量實驗來驗證其效果。與現有方法的對比測試揭示了A-STAR在處理多概念提示詞時的顯著優勢。這些測試從不同角度展示了A-STAR如何改進了文本到圖像的生成質量。

在質性評估方面，研究團隊選取了多種類型的復雜提示詞進行測試。以＂一只鳥和一把紅椅子＂這樣的提示為例，基礎的Stable Diffusion模型通常無法同時生成鳥和紅椅子，而是只生成其中一個。類似地，Composable Diffusion和Structure Diffusion這兩種改進方法也面臨相同的困境。當它們處理＂一只黃碗和一只烏龜＂或＂一只貓和一只青蛙＂等提示詞時，生成的圖像往往缺失部分概念。

相比之下，A-STAR生成的圖像幾乎總能包含提示詞中的所有概念。在＂一只熊和一只烏龜＂的測試中，基礎模型只生成了熊，而A-STAR不僅生成了熊和烏龜，還將它們清晰地分開放置。即使是在概念數量更多的情況下，如＂一只猴子拿著香蕉，背景是紅磚墻＂，A-STAR也能夠捕捉全部三個概念，而基礎模型通常會遺漏香蕉。

值得注意的是，A-STAR在處理屬性綁定問題上也表現優異。在生成＂一只白馬和一只綠鳥＂時，其他方法可能會錯誤地將顏色屬性混用（如生成白鳥或綠馬），而A-STAR能正確地將白色綁定到馬上，將綠色綁定到鳥上。這種精確的屬性分配能力大大提高了生成圖像的語義準確性。

在量化評估方面，研究團隊采用了CLIP圖像-文本相似度作為主要指標。他們為每個測試提示詞生成64張圖像，并計算這些圖像與提示詞的平均相似度。結果顯示，A-STAR在全部提示相似度和最小對象相似度兩項指標上都優于現有方法。具體而言，A-STAR在三種測試類別（動物-動物、動物-物體、物體-物體）上的平均全部提示相似度比Attend-Excite高出2.9%，比基礎的Stable Diffusion高出7.1%；在最小對象相似度方面，A-STAR比Attend-Excite高出1.4%，比Stable Diffusion高出10.8%。

研究團隊還使用BLIP工具對生成的圖像進行描述，并將這些描述與原始提示詞進行比較。在這項文本-文本相似度測試中，A-STAR再次表現出色。在動物-動物類別中，A-STAR的相似度為0.82，而基礎的Stable Diffusion僅為0.76（低7.9%）；在動物-物體類別中，A-STAR的相似度為0.84，而Stable Diffusion為0.78（低7.7%）；在物體-物體類別中，A-STAR的相似度為0.82，而Stable Diffusion為0.77（低6.5%）。

為了獲取真實用戶的反饋，研究團隊還進行了一項用戶調查。調查參與者需要選擇哪組圖像最能代表輸入文本的語義。結果顯示，在動物-動物類別中，94.8%的參與者選擇了A-STAR生成的圖像，而選擇Stable Diffusion和Attend-Excite的分別只有2.2%和3.0%。在動物-物體類別中，79.2%的參與者選擇了A-STAR，選擇Stable Diffusion和Attend-Excite的分別為6.7%和14.1%。在物體-物體類別中，83.7%的參與者選擇了A-STAR，選擇Stable Diffusion和Attend-Excite的分別為3.0%和13.3%。這些結果進一步驗證了A-STAR在提高生成圖像語義準確性方面的突出表現。

研究團隊還進行了消融實驗，以評估兩個損失函數的個別貢獻。結果表明，雖然每個損失函數單獨使用時都能改善基礎模型的性能，但同時使用兩者能夠達到最佳效果。例如，在生成＂一只灰熊在清澈的河流中捕捉三文魚，周圍是森林＂時，添加注意力分離損失后，三文魚開始出現在圖像中；添加注意力保留損失后，森林也出現了；同時使用兩種損失時，所有概念都被完整捕捉，生成的圖像與提示詞高度一致。

這些全面的實驗結果表明，A-STAR技術能夠有效解決文本到圖像生成中的概念遺漏問題，生成更加語義準確的圖像。無論是從專業評估標準還是普通用戶的主觀感受來看，A-STAR都展現出了明顯的優勢。

實用落地與前景

A-STAR技術不僅在實驗室環境中表現出色，在實際應用中也展現了強大的潛力。它的一個特別有價值的應用是布局約束圖像生成，這讓用戶能夠更精細地控制生成圖像中各個概念的位置。

在傳統的文本到圖像生成中，用戶只能提供文本描述，而對生成的圖像布局幾乎沒有控制權。而A-STAR的注意力保留機制提供了一種簡單但強大的控制方式。用戶可以直接指定他們希望某個概念出現在圖像的哪個區域，A-STAR會確保這一點。

例如，用戶可以要求＂貓出現在圖像左上角，狗出現在圖像中右部分＂。通過提供相應的布局掩碼，A-STAR的注意力保留損失會引導生成過程，確保最終圖像符合這一布局要求。這種能力在創意設計、廣告制作等領域具有重要價值，讓用戶能夠更精確地實現他們的視覺構想。

除了布局控制外，A-STAR還顯示出在處理不同類型提示詞方面的通用性。研究表明，無論是動物-動物組合（如＂貓和狗＂）、動物-物體組合（如＂狗和骨頭＂），還是物體-物體組合（如＂椅子和桌子＂），A-STAR都能保持高水平的性能。這種通用性使A-STAR成為一個適用于廣泛場景的強大工具。

在技術實現方面，A-STAR的一個重要優勢是其計算成本相對適中。與一些需要重新訓練整個模型的方法不同，A-STAR只需在推理階段添加額外的優化步驟。研究團隊測量了A-STAR與基礎Stable Diffusion相比的額外計算時間，結果顯示：對于兩個概念的提示詞，A-STAR額外需要1.08秒；對于三個概念的提示詞，額外需要2.85秒；對于四個概念的提示詞，額外需要5.95秒；對于五個概念的提示詞，額外需要7.13秒；對于六個概念的提示詞，額外需要8.34秒。

與競爭方法Attend-Excite相比，A-STAR在處理少量概念（2-4個）時額外計算時間更長，但在處理大量概念（5-6個）時反而更高效。考慮到A-STAR帶來的顯著性能提升，這一計算成本是完全可以接受的。

A-STAR也存在一些局限性。盡管它能確保提示詞中的所有概念都出現在生成圖像中，但對于概念間的關系和交互，它的控制能力仍有限。例如，在生成＂貓玩球＂、＂貓抱球＂、＂貓用爪子拍球＂、＂貓頭上平衡一個球＂等提示詞時，A-STAR能確保貓和球同時出現，但它對動作的精確表達受限于基礎模型的能力。

這表明A-STAR主要解決了概念捕捉問題，而對于更復雜的語義表達，還有進一步改進的空間。未來的研究方向可能包括改進對概念關系的建模，以及與其他技術（如ControlNet）的結合，進一步提高生成圖像的精確性和可控性。

總的來說，A-STAR技術代表了文本到圖像生成領域的一個重要進步。它通過注意力分離和保留機制，有效解決了概念遺漏這一關鍵問題，使生成的圖像更加忠實于輸入文本。更重要的是，A-STAR作為一種測試時優化方法，可以直接應用于現有的擴散模型，無需重新訓練，這大大降低了實施難度和普及成本。

隨著這項技術的進一步發展和應用，我們可以期待未來的文本到圖像系統能夠生成更加準確、豐富且符合用戶意圖的視覺內容。無論是普通用戶的創意表達，還是專業設計師的工作流程，都將從中受益。A-STAR的成功也為解決AI生成內容中的其他語義準確性問題提供了新的思路，對整個生成式AI領域具有啟發意義。

參考資料

Agarwal， A.， Karanam， S.， Joseph， K.J.， Saxena， A.， Goswami， K.， &； Srinivasan， B.V. （2023）. A-STAR: Test-time Attention Segregation and Retention for Text-to-image Synthesis. ICCV 2023.
Rombach， R.， Blattmann， A.， Lorenz， D.， Esser， P.， &； Ommer， B. （2022）. High-Resolution Image Synthesis with Latent Diffusion Models. CVPR 2022.
Chefer， H.， Adi， Y.， Hoffman， J.， &； Goldstein， T. （2023）. Attend-and-Excite: Attention-Based Semantic Guidance for Text-to-Image Diffusion Models. SIGGRAPH 2023.

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.