谷歌新AI系統Imagen有點強,輸入文本就能生成逼真的圖像

日前,谷歌宣布推出了一款新的AI系統Imagen,可以將文字描述轉化為逼真的圖像的人工智能技術 。
【谷歌新AI系統Imagen有點強,輸入文本就能生成逼真的圖像】據報道,Imagen可以創建比OpenAI的人工智能工具DALL-E2更逼真和逼真的圖像,不過谷歌尚未公開Imagen[1] 。
如圖片所示,Imagen擴散模型可根據用戶的書面提示輸出繪圖、油畫、CGI 渲染等 。

谷歌新AI系統Imagen有點強,輸入文本就能生成逼真的圖像

文章插圖
注:圖片來自Imagen官網截圖
那么Imagen 是如何工作的?
Google Imagen 官方網站還解釋這種人工智能技術的工作原理,首先分析用戶輸入的文本并使用T5-XXL進行編碼 。嵌入在 AI 中的文本首先被轉換為分辨率為64x64像素的小圖像 。Imagen進一步利用文本條件超分辨率擴散模型對圖像進行64×64的上采樣 , 然后這個圖像繼續增長并最終形成 。
谷歌新AI系統Imagen有點強,輸入文本就能生成逼真的圖像

文章插圖
Imagen 的開發者谷歌研究的大腦團隊表示 , 基于變壓器和圖像擴散模型,Imagen實現了前所未有的真實感 。谷歌聲稱,對比其它模型,在圖像保真度和圖像-文本匹配方面,人類評估者更喜歡 Imagen 。
不過,谷歌也表示 , Imagen 是在從網絡上抓取的數據集上進行訓練的,雖然已經過濾了很多不良內容如不雅圖像、污穢語言等,但仍有大量不當的內容數據集,因此也會存在種族主義誹謗和有害的社會刻板印象 。
谷歌指出,在生成事件、物體和活動的圖像時 , Imagen會編碼“社會和文化偏見” 。由于這些原因以及更多原因,谷歌沒有公開發布 Imagen 。
谷歌新AI系統Imagen有點強,輸入文本就能生成逼真的圖像

文章插圖

谷歌新AI系統Imagen有點強,輸入文本就能生成逼真的圖像

文章插圖
注:圖片均來自imagen官網截圖
圖片示例中 , imagen會根據用戶選中不同的關鍵詞生成不同形象
https://imagen.research.google/

    推薦閱讀