Hugging Face發布diffuser模型AI繪畫庫初嘗鮮!


Hugging Face發布diffuser模型AI繪畫庫初嘗鮮!

文章插圖
作者:韓信子@ShowMeAI 深度學習實戰系列:https://www.showmeai.tech/tutorials/42 TensorFlow 實戰系列:https://www.showmeai.tech/tutorials/43 本文地址:https://www.showmeai.tech/article-detail/312 聲明:版權所有,轉載請聯系平臺與作者并注明出處 收藏ShowMeAI查看更多精彩內容

Hugging Face發布diffuser模型AI繪畫庫初嘗鮮!

文章插圖
工具庫 transformers 的開源方 Hugging Face 剛剛發布了一個用于構建 diffuser 模型的全新庫 。如果您不知道diffuser模型是什么,你可以查看 ShowMeAI 的另外一篇文章介紹你給文字描述,AI 藝術作畫 , 精美無比!附源碼 , 快來試試! 。
隨著 AI 技術的發展,我們現在在互聯網上看到的那些美麗、富有創意、極具藝術美感的繪畫與視頻,很多是來自 AI 之手!典型的AI藝術創作例如 OpenAI 的 DALL-E2、谷歌的 Imagen 和 Midjourney 的產品,所有這些產品服務都使用 diffuser 模型,下圖為一些創作結果 。
Hugging Face發布diffuser模型AI繪畫庫初嘗鮮!

文章插圖
Hugging Face 發布了一個專注于 diffuser 模型的開源庫,我們可以基于它,僅僅通過幾行代碼就開始生成自己的藝術作畫 。不過這個 diffuser 庫是一個基礎實現版本,訓練和學習的數據也沒有上面提到的幾個大廠商業產品多,在本篇文章中,ShowMeAI 就帶大家來探索新庫,并生成一些我們自己的藝術畫作,也對比一下相同文本提示下的大廠商業產品生成的結果 。
快速嘗鮮我們先在命令行通過 pip install diffusers 安裝本次使用到的工具庫 , 然后導入我們需要用到的模塊和功能(在這里我們調用整個擴散模型流水線 DiffusionPipeline),并且我們導入一個小型預訓練模型ldm-text2im-large-256
from diffusers import DiffusionPipelinemodel_id = "CompVis/ldm-text2im-large-256"# 預訓練模型ldm = DiffusionPipeline.from_pretrained(model_id)接著我們就可以基于這個預訓練模型作畫啦,我們唯一需要做的事情就是給模型一句文本提示(在 diffuser 模型里叫 prompt 提示) 。下面我們嘗試生成一幅『松鼠吃香蕉』的畫作 。
# 給定文本提示和作畫prompt = "A painting of a squirrel eating a banana"images = ldm([prompt], num_inference_steps=50, eta=.3, guidance_scale=6)images[0]
Hugging Face發布diffuser模型AI繪畫庫初嘗鮮!

文章插圖
上面就是模型最終生成的圖像,當然受限于我們的計算資源和預訓練模型大小,我們生成的圖像不像 DALL-E 2 那樣令人驚艷,但是我們僅僅用 5 行代碼也生成了一副和提示文本匹配的圖像,還是很讓人感覺神奇 。
下面是『松鼠吃香蕉』的另一幅畫:
images = ldm([prompt],num_inference_steps=100,eta=.3,guidance_scale=6)images['sample'][0]
Hugging Face發布diffuser模型AI繪畫庫初嘗鮮!

文章插圖
文本提示高分辨率自三大擴散模型(DALL-E 2、Imagen 和 Midjourney)發布以來,大家都開始發揮想象力 , 嘗試各種各樣的文本提示,讓模型生成藝術圖 。例如,許多人發現添加『4K畫質』或『在Unity中渲染』可以增強三巨頭生成的圖像的真實感(盡管它們都沒有以 4K 分辨率生成) 。
如果我們對 Hugging Face 的 diffuser 模型進行同樣的嘗試,會發生什么?
prompt = "a photorealistic image of a squirrel eating a banana"images = ldm([prompt],num_inference_steps=100,eta=.3,guidance_scale=6)images['sample'][0]
Hugging Face發布diffuser模型AI繪畫庫初嘗鮮!

文章插圖
Hugging Face發布diffuser模型AI繪畫庫初嘗鮮!

文章插圖
Hugging Face發布diffuser模型AI繪畫庫初嘗鮮!

文章插圖
很顯然它還不能生成高清的 4K 圖 , 但是圖像中的一些細節有豐富一些 。
場景與邏輯我們把場景做得復雜一點點,比如給到的文本提示中,有不同的物體和位置關系,我們看看會生成什么樣的結果,提示文字為an italian person eating pizza on top of the colosseum in rome
prompt = "an italian person eating pizza on top of the colosseum in rome"images = ldm([prompt],num_inference_steps=100,eta=.3,guidance_scale=6)images['sample'][0]
Hugging Face發布diffuser模型AI繪畫庫初嘗鮮!

文章插圖
看得出來 , 這個簡單的 diffuser 模型在很努力地復現我們文本中提到的人、斗獸場、披薩,但是對于更細節的位置關系,似乎它還沒有做得非常好,這里的人并沒有坐在羅馬斗獸場頂部,而且斗獸場的拱門顏色和天空顏色也不完全匹配 。

推薦閱讀