谷歌新AI系統Imagen有點強，輸入文本就能生成逼真的圖像

2026-05-09 生活百科 AI繪畫

日前，谷歌宣布推出了一款新的AI系統Imagen，可以將文字描述轉化為逼真的圖像的人工智能技術。
【谷歌新AI系統Imagen有點強，輸入文本就能生成逼真的圖像】據報道，Imagen可以創建比OpenAI的人工智能工具DALL-E2更逼真和逼真的圖像，不過谷歌尚未公開Imagen[1] 。
如圖片所示，Imagen擴散模型可根據用戶的書面提示輸出繪圖、油畫、CGI 渲染等。

谷歌新AI系統Imagen有點強，輸入文本就能生成逼真的圖像

文章插圖
注:圖片來自Imagen官網截圖
那么Imagen 是如何工作的?
Google Imagen 官方網站還解釋這種人工智能技術的工作原理，首先分析用戶輸入的文本并使用T5-XXL進行編碼。嵌入在 AI 中的文本首先被轉換為分辨率為64x64像素的小圖像。Imagen進一步利用文本條件超分辨率擴散模型對圖像進行64×64的上采樣，然后這個圖像繼續增長并最終形成。

谷歌新AI系統Imagen有點強，輸入文本就能生成逼真的圖像

文章插圖
Imagen 的開發者谷歌研究的大腦團隊表示，基于變壓器和圖像擴散模型，Imagen實現了前所未有的真實感。谷歌聲稱，對比其它模型，在圖像保真度和圖像-文本匹配方面，人類評估者更喜歡 Imagen 。
不過，谷歌也表示， Imagen 是在從網絡上抓取的數據集上進行訓練的，雖然已經過濾了很多不良內容如不雅圖像、污穢語言等，但仍有大量不當的內容數據集，因此也會存在種族主義誹謗和有害的社會刻板印象。
谷歌指出，在生成事件、物體和活動的圖像時， Imagen會編碼“社會和文化偏見” 。由于這些原因以及更多原因，谷歌沒有公開發布 Imagen 。

谷歌新AI系統Imagen有點強，輸入文本就能生成逼真的圖像

文章插圖

谷歌新AI系統Imagen有點強，輸入文本就能生成逼真的圖像

文章插圖
注：圖片均來自imagen官網截圖
圖片示例中， imagen會根據用戶選中不同的關鍵詞生成不同形象
https://imagen.research.google/

推薦閱讀

上一篇：通過netty把百度地圖API獲取的地理位置從Android端發送到Java服務器端

下一篇：Java程序員必會Synchronized底層原理剖析