Table of Contents
作者 / Rabby Xiao – 行動力至上,善於理性思考對於科技產業很有興趣的 UI/UX 設計師,於 2023 年開始書寫 UX 見聞錄,想要分享更多自己經歷相關的講座和課程資訊。這次十分開心能以筆記手的身份,分享講座記錄。
原文同步刊登於作者 Medium。
1 講座提要
這篇文章記錄悠識學院主辦的「2023 AI for better UX 實務研討」第 1 場講座「從基礎大模型看 AIGC 釋放創造」,講者為 Alibaba 通義實驗室 – 產品體驗設計負責人 – 林居穎 Kyle。
在 AI 時代下,設計師該如何深入本質,調整定位,利用 AI 而不是被 AI 利用,去做好本職工作,發揮更大的能力?本分享將從 AIGC 的發展切入,拆解影像基礎演算法的演進,再到新一代設計模式的討論。 幫助大家見微知著,擁抱 AIGC 設計新時代。
2 AI 的發展進程
在 AI 領域,有些術語可能會讓人感到困惑。
比如,最初可能熟悉的是由專家用戶創建的 PGC(專家生成內容),接著是由普通使用者創建的 UGC(用戶生成內容),而現在則是 AI 生成的 UGC,因此被稱為 AIGC(AI 生成內容)。這種演化從專家到用戶,最終到 AI 的生成過程,形成了這個術語的不同階段。
最早的 AIGC 出現在什麼時候?
1957 年 伊利亞克組曲 AI 生成音樂創造交響樂。最早的運用是以 AI 生成音樂開始的。
1990 年開始生成文本,在 2007 年出現了世界第一部創作小說。然後從 2010 年到現在,2022 年出現了 AI 大爆發,包含了圖像、Vedio、還有 Words 的大規模應用。
AI 是怎麼去生成文字跟文本?
文字型的運用:LLM – 怎麼讓 AI 去處理好文字的相關運用跟理解。
Kyle 解釋了 Chat GPT 主要在做的事情是「猜測」怎麼樣去回答使用者的問題。
但事實上其實沒有猜,都是統計學在背後運作的邏輯,所以亂編答案/訊息偏誤/廢話連篇是非常常見的!
那身為使用者的我們可以怎麼優化這些問題?
核心點:AGI HHH 原則
3H 原則,評測機構制度照這三個原則去評測跟打分
- Helpful 有用的:幫助使用者,使其滿意
- Honest 誠實的:真實的內容,沒有謬誤
- Harmless 無害的
*違反這三者原則的內容,是無法獲得學術界與工業界的認可的。
因此,到底這些問答背後,可以如何讓這些數據更好?
答案是:所有訓練裡都有數據層跟模型層!
GPT 3.5
- 數據:1. 專業標注人員數據 2. 真實問答用戶數據
- 模型:SFT – Superivsed Fine Tuning
- Instruct Learning 指示學習
- 這個模型數據模型,利用大量的網海,在做知識學習,但容易造成胡說八道的結果。所以藉由專業標注人員數據 ,真實問答用戶數據 再搭配模型後可以有效可以把大模型的基底進行可控制的引導。
接著用訓練好的基底再去生成相識的答案,這個行為叫「泛化」。
- 數據:1. 自動生成答案數據 2. 真人排序的精品數據
- 模型:RM 獎勵模型 Reward Modal
- RLHF:人工強化學習
- 看到這還是不懂的話,Kyle 此時說了個比較好理解的話就是:「調教一隻狗狗!」有趣的是 Chat GPT 一開始被調侃不會算數學,但藉由開發加上 API 外掛之後就解決了這個問題。
GPT 4
進入下個時期,增加了 CLIP Contrastive Language-Image Pre-Training 對比式語言 – 圖像化訓練。
可以理解成「大模型加上了一些眼睛」,加入 CoT Chain of Thought 後就像是 「 放聲思考法」。要求大模型展現思考的過程,讓相關人員可以去控制過程跟路徑,在沒加入之前的時代都是黑盒。最後加入 GPTs Prompt Engineering + Assistant API 通過 GPT 就可以找出更多 GPT 能力的插件。
AI 聰明了,然後呢?
下一步則是如何讓它更關注情商!從智商到情商,並讓它更像一個「人」。
「我們怎麼樣才會把智慧體,覺得他是一個人?」
- 「人格」+「特質」+「意圖」+「情緒」
有了這四個東西後就會覺得 AI 像人了,有趣的是人對別人的腦補能力很強。
生命感的腦補:比方說地上的石頭,放了兩個玩具眼睛,人們就會覺得這顆石頭比別的石頭多了點生命力。
每個人在認識人格的時候則是:由外而內,從人的末端行為,向上總結人的類型。舉例,Kyle 表示他認識理查哥的過程,一開始不是很熟悉,而是透過每件事情的相處逐漸總結出「理查哥就是這樣的一個人。」
但人的表達:由內而外,從人的人格類型,向下約束末端行為。比如說我們自己的成長背景和學習經驗,去將自己的人格增強,並發展出自己的特質。像是每個人喝咖啡會有自己喜歡的品項這個行為。
訓練 AI 的方法有很多,其中之一是通過內外交集。先設定出 AI 的本質人格,比如說是 ESFP 表演型,開始往下個性特質去設定不同的參數,最後引導到不同產品上面。
3 從影像演算法的本質看創作性
AI 是怎麼做成圖向的呢?
生成對抗式模型(GAN)是一種能夠產生逼真圖像的人工智慧技術。它由兩個主要的部分組成:生成器和判別器。
- 生成器(Generator):生成器是 GAN 的一部分,負責創建新的圖像。它以隨機噪音或潛在空間中的數據作為輸入,並嘗試生成與真實圖像相似的圖像。通過訓練過程,生成器逐漸改進,嘗試生成更逼真的圖像。
- 判別器(Discriminator):判別器是 GAN 的另一部分,負責區分真實圖像和生成器生成的圖像。它接收來自真實圖像和生成器的圖像,並試圖識別哪些是真實的,哪些是生成的。判別器的目標是在訓練過程中學會區分真偽,從而幫助生成器不斷改進。
這兩個部分共同進行訓練。生成器和判別器相互競爭,透過不斷的反饋和訓練,生成器努力提高生成圖像的逼真程度,而判別器則試圖更好地辨別真實和生成的圖像。這種競爭促進了模型的學習和提升,最終產生高質量的逼真圖像。
- Duffusion 模型:Photoshop中有類似的效果 「擴散過程」,還有「逆擴散過程」。而逆擴散的過程其實非常不穩定,Stable Diffusion 命名就是嘗試讓他變穩定,並經過語意的關聯可以進行重組。
- Clip 對比式語言:圖像育訓練 – 就是想辦法讓 AI 看得懂,以及生成出人們看得懂的東西。比如說,一隻貓在狗頭上,匹配與不匹配?去告知你圖像的認知行為。
但到底如何才能控制好生成圖像,讓結果可控?
讓結果可控的方法核心
- 人類的產出:經驗、理解力、需求
- 機器的產出:數據集、模型 SFT、Prompt
但沒有足夠的數據,就像人沒有經驗和技法。
沒有良好的理解力,機器就像人沒有辦法理解需求。沒有精準的表達能力就會向甲方一樣。
有趣的例子和示範:如何讓乙方理解甲方?
作為甲方:「先不要」像機器一樣對話。AI 現在真的沒有使用者們想像的聰明。
善用「冒號」還有「逗號」下指令。
在水面中的少女:利用逗號產生的結果,Kyle 表示 其中 Laughing “AT ME” 是非常具體的詞彙,很重要。
最關鍵的點「具體」
舉例:
1. 出淤泥而不染,濯清漣而不妖 VS 中國荷花:使用者想要的圖案可能只是荷花,而不是「妖怪」,所以直接具體的指示會得到更好的結果。
2. 歌喉像百靈鳥一樣的歌唱家 VS 正在唱歌的女士:AI 現在無法理解人類的暗喻和隱喻。
靈魂四問:「型」「色」「質」「構」
會讓 AI 好理解的是什麼呢:主體是什麼?色彩是什麼?環境氣氛燈光是什麼?構圖是什麼?
而使用者要如何訓練出更好的模型?
因為在圖庫裡面可能有好幾億的圖像,到底要怎麼挑選?演算法工程師也是很沒有底氣的,他也不知道!但在過程中需要洗數據,所以仍舊需要能審美的人洗數據。
所以在一開始需要定義什麼是「好數據」,透過大量的人進行「批量標註」達標後接著進行「機器學習」 接著驗收成果,並檢查效果,不合格的就重新進行「標註」一旦合格 ,才能進行大規模訓練。
這些流程沒有想像中的不可理解,有非常科學化的過程。
4 與 AI 共存的正確心態
設計師會被 AI 取代嗎?
Kyle 覺得這題目特別有意思,以「過去攝影對於繪畫界」炸裂的影響程度,並舉例了「悲傷的五個階段」來回應:
1. 否認:第一張照片來自於法國的 Joseph,當時在1826年出現了攝影技術,整個社會都是非常炸裂的。畫家們強烈否認,覺得只是魔術,不是藝術。
2. 憤怒:有一個 August 的宮廷畫家控訴攝影作品難登大雅之堂。
3. 討價還價:越來越多的素材出現,對於藝術界的效率有提升。
4. 沮喪:開始出現「完了,寫實派已經結束了」的部分聲音。
5. 承認:開始承認並接受,但也間接影響了後期的印象派,野獸派,讓這些藝術更被發揚光大。
我們現在在「憤怒」階段,覺得 AI 做的也不怎樣。
5 AI 輔助設計的未來展望
AIGC 時代的設計師,身為設計師可以怎麼去運用這些能力呢?
前期腦爆找靈感(草稿,找參考圖 + 構思創意找到靈感!)
後期設計執行階段(細化完善 + 無需完善)FIGMA 和 PS 都有 AI 的插件,比方運用很好的是室內設計裡面的 Layout 圖,可以專注在自己需要專注的地方,辛苦活 AI 來。
所以說好的網站,好的工具,好好的去學習--都可以幫助自己的未來。
後 Agent 時代
Agent 其實就是一個代理人,比如今天要買房子,它就是一個仲介,負責去幫人討價還價。只要給它目標就行了,中間的事情它會幫你處理好。
透過多個 Agent 的組合變成服務:
- 接觸點,一開始做的是「互動」。
- 把接觸點連成一個線:像是今天去咖啡廳買咖啡。那就是一個買咖啡的「體驗」。
- 最後整體的形成一整個咖啡廳的「服務」:買咖啡是條線,做咖啡也是條線。
換句話說:
- 「點」是固定的 API,只能做固定的事情。
- 「線」是給一個明確的目標,比如說去倒茶。就會聯合不同的 API,去完成。
- 「面」就是現在人們都在努力發展的近況,通過多個 Agent,完成一個更好的服務。
- 1.0 智能學徒:叫 AI 做什麼,AI 就做什麼。
- 2.0 智能助手:在特定的領域,AI 跟人們有一樣的能力。 (Agent 現在在這)
- 3.0 智能顧問:基於更多更厲害的決策模型,比如說:投資組合,求職規劃等等!未來肯定會有更多運用 AI 幫助人們的世界跟生活。
AIGC 讓每個人/機器都可以釋放創意:未來可能每個人都會有自己的 Agent,生活在自己的身邊可能是裝置或跳來跳去。而這個時代可能很快就會到來了,鼓勵大家保持開放的心態,以及學習跟探索的想法。
延伸閱讀:
[研討會記錄] 2023 AI for better UX 實務研討:從基礎大模型看 AIGC 釋放創造
[研討會記錄] 2023 AI for better UX 實務研討:智能化設計的產品角色轉移
[研討會記錄] 2023 AI for better UX 實務研討:在 AI 時代設計愉悅的使用者體驗
[研討會記錄] 2023 AI for better UX 實務研討:設計師在 AI 產品開發的職責