拿大模型代碼來訓練自用小模型
1 前言
上一期所刊登的《從CLIP 應用領會隱空間的魅力》一文里,就是一個典型的范例:從Github 網頁下載OpenAI 公司的CLIP 源代碼(Source code),然后搭配自己收集的小數據來訓練一個給超市商家使用的小模型( 圖1)。
圖1 Github上的免費CLIP源碼
那么,這大模型與小模型,兩者的代碼之間,有何不同呢? 這可能會出乎您的預料,其核心模型的代碼,大多是一致的、相容的。常常僅是大模型的參數量很大,而小模型參數量較少而已。
于是就能免費拿來大模型的開源代碼,把其參數量調小,搭配企業自有IP 的數據( 訓練數據量較少),在較省算力的計算機上即可把代碼跑起來,訓練出企業自有IP 的中小模型了。免費代碼既省成本、可靠、省算力、又自有IP,可謂取之不盡、用之不竭的資源,豈不美哉!
例如,在上一期的文章里,就以商店柜臺的產品推薦應用為例演示了:拿CLIP 的源代碼,搭配商家自有產品圖像(Image) 和圖像敘述文句(Text),來訓練出企業自用的CLIP 小模型。
然而,上一期文章里,并沒有詳細說明其訓練的流程。于是,本文就拿另一個范例來演示,并且說明其開發流程。由于本文的主題是代碼,如果您有些Python代碼的基礎知識,就會更容易理解。
2 以”訓練Diffusion寫書法”為例
在之前的文章《細觀Diffusion 隱空間里UNet 的訓練流程》里,曾經介紹過Diffusion 架構,及其訓練方法。在AIGC 潮流中,SD(Stable Diffusion) 產品的推出是AIGC 圖像生成發展歷程中的一個里程碑,提供了高性能模型,能快速生成創意十足的圖像。
于是,本范例就拿Diffusion 來學習,及創作書法字體,也就是俗稱的:寫書法。雖然Diffusion 也能學習依循標準筆順,來逐筆寫出字形。為了從簡單范例出發,本文先讓Diffusion 來學習程生成整個字形,而不是逐一生成各筆劃。
在SD 里,UNet 模型扮演關鍵性角色。在SD 的隱空間里,它使用了一個UNet 模型,并搭配一個時間調度(Scheduling) 器,來擔任圖像生成的核心任務。而擴散(Diffusion) 一詞則描述了SD 隱空間里進行的圖像生成情形,整個過程都是在隱空間里逐步推進(Step by step) 的,現在就依循開發流程來逐步說明之。
Step-1:從Github網頁下載Diffusers源碼首先訪問這個Huggingface 網頁( 圖2),然后,按下”code”就自動把Diffusers 源碼下載到本機里了。這源碼本身并不大,只有4.5MB 大小而已。
圖2 Github上的免費Diffusers源碼
Step-2:把Code放置于Python 的IDLE環境里
把剛才下載的Diffusers代碼壓縮檔解開,放置于Wibdows 本機的Python 工作區里,例如 /Python310/ 目錄區里( 圖3),這樣,就能先在本機里做簡單的測試,例如創建模型并拿簡單數據( 或假數據) 來測試,有助于提升成功的自信心。
圖3 放置于本機的Python環境里
Step-3:找出Diffusion的核心模型---UNet
由于小模型常常只需要部份代碼就足夠了,所以就打開上圖里的/diffusers/ 活頁夾,就會看到所需要的UNet 模型代碼文件--- unet_2d_condition.py 檔案,如圖4 所示。
圖4 放置于本機的Python環境里
接著,打開這個unet_2d_condition.py 檔案,可以看到內含的類(Class) 定義:
class UNet2DConditionModel(…):
……………
……………
這個UNet2DCondition 類就是所需要的UNet 模型的定義了。
Step-4:準備訓練數據(Training data)在本文的范例里,收集了”春、滿、干、坤”四個字的書法圖像,各5 個圖像,如圖5 所示。
圖5 訓練數據
總共有20 個書法字體的圖像。使用這20 張書法圖像,來讓UNet 模型學習,就能讓它”畫”出書法字了。之后,也能進一步讓它學習沒一個字的筆順,來逐筆地”寫”出書法字體了。
Step-5:編寫”模型訓練”主程序,然后展開訓練
準備好了訓練數據( 書法圖像),就來編寫一個主程序,使用UNet2DCondition 類來創建一個UNet 模型。主程序的代碼如下:
接著,就拿剛才所準備的訓練圖像,來展開訓練,也就是讓UNet 模型來學習了。其代碼如下:
在SD 隱空間里,它使用了一個UNet 模型,并搭配一個時間調度(Scheduling) 器,來擔任圖像生成的核心任務。執行到上圖紅色框的指令時,就會把隨機噪音添加到書法圖像里,成為”含噪音圖像”(Image noisy)。然后把它輸入給UNet 模型,讓它預測出此圖像所含的噪音。在SD 里,使用數學運算,根據時間步數(即上圖里的ts) 來決定將多少噪音量添加到原圖像里。這樣地重復訓練500 回合。如果圖像數量增大時,在單機上訓練,可能速度非常緩慢。此時可以把這些代碼遷移到有GPU 的機器上進行訓練,能大幅提高效率。
Step-6:編寫”圖像生成”主程序,然后展開創作
訓練好了,就得到了自用小模型了。最后就可編寫另一個主程序,來讓UNet 模型生成各種創意的書法作品了。例如,把字寫在唐宋時期的國畫里,如圖6 所示。
圖6 AI的書法創作
每次執行這個書法主程序,都會有一些不一樣的創新,例如圖-6 的左右兩項書法創作。
3 結語
基于本文的范例,可以繼續微調、優化這UNet 模型及主程序代碼,讓AI 做出更多的創新作品。例如,也能進一步讓它學習沒一個字的筆順,來逐筆地“寫”出書法字體了( 圖7)。
圖7 AI依筆順而逐筆創作
本文以AI “畫”書法為例,說明如何從Github 園地里,挖掘自己想要的大模型源代碼,搭配自己收集的書法圖像,來訓練出有趣的AI 書法小模型。如果能善用這些免費代碼,既能省成本、又可靠、省算力、甚至能擁有自己有IP,可謂取之不盡、用之不竭的資源,不亦美哉!
(本文來源于EEPW 2023年12月期)
評論