Good Luck To You!

手机扫一扫

0提示詞就能續寫小說!彩雲科技首創DCFormer架構大模型,AI秒變網文產糧神器

鳳凰科技 2024-11-14 01:36:15 2

作者|依婷

編輯|心緣

智東西11月13日報道,今日,在“From Paper to App”媒體溝通會上,AI技術公司彩雲科技正式推出首款基於DCFormer架構開發的通用大模型“雲錦天章”,旗下AI RPG平臺“彩雲小夢”也成為首款基於DCFormer架構開發的AI產品。

與此同時,彩雲科技CEO袁行遠就AI大模型落地應用難、大模型未來進化之路等行業熱點話題與智東西等媒體進行了交流。

袁行遠說:“ChatGPT釋出近兩年,為什麼對世界的改變仍然有限?我稱之為‘智慧沒有免費的午餐定理’——做同樣一件事,大模型需要消耗的算力要和大腦思考需要消耗的腦力一樣多,才能得到和大腦思考同樣的效果。”

一、顛覆Transformer架構,效能最高提升2倍

“假設ChatGPT-4每天響應使用者約2億個請求,消耗超過50萬千瓦時的電力。假設全球網路都使用ChatGPT作為訪問入口,ChatGPT每天消耗多少電力?另外按照這個速度發展下去,到2050年全球人工智慧的耗電量會達到目前地球發電能力的多少倍?”

“到2050年,全球人工智慧的耗電量可能會達到目前地球發電能力的8倍。”

上面是溝通會現場,袁行遠向參會者展示的他與ChatGPT-o1之間的問答;改變AI能源困局也是袁行遠主張改善大模型底層架構的出發點。

“Scaling Law告訴我們,隨著算力的提升,模型更大、資料更多,模型效果會越來越好,但與之相應的,能耗也會越來越高,在Scaling Law失效、AI實現之前,或許我們地球的能源就已經無法支撐了。”袁行遠稱,“沒有效率的提升,AI就是鏡花水月。”

今年年中,彩雲科技帶來了顛覆Transformer架構的研究成果。在國際機器學習領域的頂級會議ICML(國際機器學習大會)上,彩雲科技釋出論文《Improving Transformers with Dynamically Composable Multi-Head Attention》及論文核心成果DCFormer架構。

據介紹,彩雲科技團隊構建DCFormer框架,提出可動態組合的多頭注意力(DCMHA),替換Transformer核心元件多頭注意力模組(MHA),解除了MHA注意力頭的查詢選擇迴路和變換回路的固定繫結,讓它們可以根據輸入動態組合,從根本上提升了模型的表達能力,由此實現了對Transformer架構1.7—2倍的效能提升。

“我們的工作表明,Transformer架構距離‘理想模型架構’還有很大的提升空間,除了堆算力、堆資料的‘大力出奇跡’路線,模型架構創新同樣大有可為。”袁行遠補充道:“往小了說,在大模型領域,利用效率更高的模型架構,小公司也可以在與世界頂級AI企業的對抗中取得優勢;往大了說,模型效率的提升,可以有效地降低AI升級迭代的成本,加速AI時代的到來。”

二、0提示詞按回車鍵AI續寫小說,最高輸出10000字

“世界最強的小說續寫通用模型。”溝通會上,袁行遠帶著些中二語氣地展示了基於DCFormer架構的通用大模型“雲錦天章”。

袁行遠介紹,雲錦天章可以實現在虛構世界觀的基礎上,賦予小說人物程式設計、數學等基礎能力,可以高速針對大量文字進行擴寫、縮寫,針對文章風格進行大容量更換,同時兼具其他模型的問答、數學、程式設計等基礎能力。

根據現場演示,雲錦天章目前可以在“寫小說”等類似提示詞的情境下,實現一輪提示詞,按回車鍵多次自動續寫內容;同一輪對話的輸出字數在8000至10000字左右。該功能將透過API形式向企業開放,並免費向C端使用者開放。

彩雲科技旗下AI RPG平臺彩雲小夢也迎來了基於DCFormer架構的V3.5版本。與之前的版本相比,彩雲小夢V3.5整體流暢性和連貫性提升了20%,支援前文長度由2000字提升至10000字,故事背景設定最長長度高達10000字。

這意味著,在故事創作或者AI對話中,AI能夠記住之前發生的事情以及故事中的細節;建立的人物也會記得自己明確的目標,並且會根據劇情及時進行反思修正,在做到自主創作的同時,發散性收斂,不會天馬行空,人物性格前後一致,故事邏輯性更強。

“深度對話,超長記憶,邏輯清晰。”袁行遠總結綵雲小夢V3.5的特徵。他透露,目前彩雲小夢的使用者以網文寫作者為主,有使用者同時更新10部小說,日更10萬字,月入5-6萬元。

袁行遠介紹,公司接下來將繼續加大對DCFormer的研究和投入,“一方面有打破‘國外做技術層,國內做應用層’刻板印象的情懷所在,一方面也是為公司自有產品應對市場競爭,實現快速迭代升級和能力領先的現實需要。”

結語:新架構效果有待檢驗,AI細分賽道仍需開拓

對於當下的AI大模型,谷歌的Transformer架構彷彿成為既定法則,彩雲科技從底層架構對其進行顛覆,在理論上對大模型生成效率取得了顯著提升,但能否產生行業影響還有待更多企業對DCFormer架構進行體驗。

與此同時,在AI陪伴領域挖掘AI寫網文、AI RPG等細分賽道,不失為中小型AI創業公司可以參考的思路。有需求才有市場,彩雲小夢瞄準了網文創作者,而更廣闊的AI應用賽道還有待被發現。