Hugging Face發布diffuser模型AI繪畫庫初嘗鮮！

2026-05-09 生活百科

Hugging Face發布diffuser模型AI繪畫庫初嘗鮮！

文章插圖

作者：韓信子@ShowMeAI 深度學習實戰系列：https://www.showmeai.tech/tutorials/42 TensorFlow 實戰系列：https://www.showmeai.tech/tutorials/43 本文地址：https://www.showmeai.tech/article-detail/312 聲明：版權所有，轉載請聯系平臺與作者并注明出處收藏ShowMeAI查看更多精彩內容

Hugging Face發布diffuser模型AI繪畫庫初嘗鮮！

文章插圖
工具庫 transformers 的開源方 Hugging Face 剛剛發布了一個用于構建 diffuser 模型的全新庫。如果您不知道diffuser模型是什么，你可以查看 ShowMeAI 的另外一篇文章介紹你給文字描述，AI 藝術作畫，精美無比！附源碼，快來試試！。
隨著 AI 技術的發展，我們現在在互聯網上看到的那些美麗、富有創意、極具藝術美感的繪畫與視頻，很多是來自 AI 之手！典型的AI藝術創作例如 OpenAI 的 DALL-E2、谷歌的 Imagen 和 Midjourney 的產品，所有這些產品服務都使用 diffuser 模型，下圖為一些創作結果。

Hugging Face發布diffuser模型AI繪畫庫初嘗鮮！

文章插圖
Hugging Face 發布了一個專注于 diffuser 模型的開源庫，我們可以基于它，僅僅通過幾行代碼就開始生成自己的藝術作畫。不過這個 diffuser 庫是一個基礎實現版本，訓練和學習的數據也沒有上面提到的幾個大廠商業產品多，在本篇文章中，ShowMeAI 就帶大家來探索新庫，并生成一些我們自己的藝術畫作，也對比一下相同文本提示下的大廠商業產品生成的結果。
快速嘗鮮我們先在命令行通過 pip install diffusers 安裝本次使用到的工具庫，然后導入我們需要用到的模塊和功能（在這里我們調用整個擴散模型流水線 DiffusionPipeline），并且我們導入一個小型預訓練模型ldm-text2im-large-256：

from diffusers import DiffusionPipelinemodel_id = "CompVis/ldm-text2im-large-256"# 預訓練模型ldm = DiffusionPipeline.from_pretrained(model_id)

接著我們就可以基于這個預訓練模型作畫啦，我們唯一需要做的事情就是給模型一句文本提示（在 diffuser 模型里叫 prompt 提示）。下面我們嘗試生成一幅『松鼠吃香蕉』的畫作。

# 給定文本提示和作畫prompt = "A painting of a squirrel eating a banana"images = ldm([prompt], num_inference_steps=50, eta=.3, guidance_scale=6)images[0]

Hugging Face發布diffuser模型AI繪畫庫初嘗鮮！

文章插圖
上面就是模型最終生成的圖像，當然受限于我們的計算資源和預訓練模型大小，我們生成的圖像不像 DALL-E 2 那樣令人驚艷，但是我們僅僅用 5 行代碼也生成了一副和提示文本匹配的圖像，還是很讓人感覺神奇。
下面是『松鼠吃香蕉』的另一幅畫：
images = ldm([prompt],num_inference_steps=100,eta=.3,guidance_scale=6)images['sample'][0]

Hugging Face發布diffuser模型AI繪畫庫初嘗鮮！

文章插圖
文本提示高分辨率自三大擴散模型（DALL-E 2、Imagen 和 Midjourney）發布以來，大家都開始發揮想象力，嘗試各種各樣的文本提示，讓模型生成藝術圖。例如，許多人發現添加『4K畫質』或『在Unity中渲染』可以增強三巨頭生成的圖像的真實感（盡管它們都沒有以 4K 分辨率生成）。
如果我們對 Hugging Face 的 diffuser 模型進行同樣的嘗試，會發生什么？

prompt = "a photorealistic image of a squirrel eating a banana"images = ldm([prompt],num_inference_steps=100,eta=.3,guidance_scale=6)images['sample'][0]

Hugging Face發布diffuser模型AI繪畫庫初嘗鮮！

文章插圖

Hugging Face發布diffuser模型AI繪畫庫初嘗鮮！

文章插圖

Hugging Face發布diffuser模型AI繪畫庫初嘗鮮！

文章插圖
很顯然它還不能生成高清的 4K 圖，但是圖像中的一些細節有豐富一些。
場景與邏輯我們把場景做得復雜一點點，比如給到的文本提示中，有不同的物體和位置關系，我們看看會生成什么樣的結果，提示文字為an italian person eating pizza on top of the colosseum in rome 。

prompt = "an italian person eating pizza on top of the colosseum in rome"images = ldm([prompt],num_inference_steps=100,eta=.3,guidance_scale=6)images['sample'][0]

Hugging Face發布diffuser模型AI繪畫庫初嘗鮮！

文章插圖
看得出來，這個簡單的 diffuser 模型在很努力地復現我們文本中提到的人、斗獸場、披薩，但是對于更細節的位置關系，似乎它還沒有做得非常好，這里的人并沒有坐在羅馬斗獸場頂部，而且斗獸場的拱門顏色和天空顏色也不完全匹配。

推薦閱讀

上一篇：C#-多線程的使用Tread

下一篇：手把手教你從安裝CentOS7.4鏡像開始，搭建IoT視頻監控系統