99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

業內首次 彩云科技發布基于DCFormer架構通用大模型云錦天章

0
分享至


2017年,谷歌發布《Attention Is All You Need》論文,首次提出Transformer架構,掀開了人工智能自然語言處理(NLP)領域發展的全新篇章。

Transformer架構作為神經網絡學習中最重要的架構,成為后來席卷全球的一系列通用大模型如ChatGPT、Gemini的底層技術支撐。而提升Transformer的運行效率也成為人工智能領域的研究熱點,2024年4月,谷歌最近一次更新了Transformer架構,提出了Mixture-of-Depths(MoD)方法,使得訓練后采樣過程中提速50%,成為Transformer架構提速升級的又一重要事件。

同樣在今年,一家來自國內的人工智能企業彩云科技,在國際機器學習領域的頂級會議ICML(國際機器學習大會)上,發布全新大模型論文《Improving Transformers with Dynamically Composable Multi-Head Attention》。

在該論文中,彩云科技團隊首次發布DCFormer架構,并在基于DCFormer打造的模型DCPythia-6.9B上,實現了在預訓練困惑度和下游任務評估上都優于開源Pythia-12B。這意味著,DCFormer模型在性能上,實現了對Transformer模型1.7-2倍的提升。

11月13日,彩云科技在北京總部與媒體進行一場主題為“From Paper to App”的溝通會。

會上,彩云科技CEO袁行遠,就通用大模型未來進化之路,與人工智能的落地場景等熱點話題進行了交流。并正式推出了首款基于DCFormer架構開發的通用大模型云錦天章,與此同時,彩云科技旗下AI RPG平臺彩云小夢,也成為首款基于DCFormer架構開發的AI產品。


只有模型效率和智能度提升

才能實現真正的AGI

溝通會現場,袁行遠首先向參會者展示了一個ChatGPT o1的問答:“假設ChatGPT4每天響應用戶約2億個請求,消耗超過50萬千瓦時的電力。假設全球網絡都使用ChatGPT作為訪問入口,ChatGPT每天消耗多少電力?另外按照這個速度發展下去,到2050年全球人工智能的耗電量會達到目前地球發電能力的多少倍?”ChatGPT o1給出的答案是,“到2050年,全球人工智能的耗電量可能會達到目前地球發電能力的8倍”。

同樣的問題,在今年2月份的世界政府峰會上,英偉達CEO黃仁勛有更為夸張的表述,“假設計算機的速度永遠不會變快,我們可能需要14個不同的行星、3個不同星系、4個太陽為這一切(AI)提供燃料。”AI對能源的強大需求在業內已經是共識,英偉達致力于通過提升硬件來提升AI效率,降低能耗;而袁行遠則認為,改善大模型底層架構,提升人工智能運行效率,是改變AI能源困局的更優路徑。

“Scaling Law告訴我們,隨著算力的提升,模型更大、數據更多,模型效果會越來越好,但與之相應的,能耗也會越來越高,在Scaling Law失效,人工智能實現之前,或許我們地球的能源就已經無法支撐了。”

袁行遠表示,“沒有效率的提升,AI就是鏡花水月。”

彩云科技團隊構建DCFormer框架,提出可動態組合的多頭注意力(DCMHA),替換Transformer核心組件多頭注意力模塊(MHA),解除了MHA注意力頭的查找選擇回路和變換回路的固定綁定,讓它們可以根據輸入動態組合,從根本上提升了模型的表達能力,由此實現了對Transformer架構1.7—2倍的性能提升。

今年的ICML會議上,彩云科技團隊的3篇論文,在錄用平均分為4.25-6.33的情況下,獲得平均7分的高分,并成為國內唯二受邀參加維也納ICML 2024登臺演講的企業,另一家則是華為。


袁行遠表示:我們的工作表明,Transformer架構距離“理想模型架構”還有很大的提升空間,除了堆算力堆數據的“大力出奇跡”路線,模型架構創新同樣大有可為。往小了說,在大模型領域,利用效率更高的模型架構,小公司也可以在與世界頂級人工智能企業的對抗中取得優勢。往大了說,模型效率的提升,可以有效地降低人工智能升級迭代的成本,加速AI時代的到來。

云錦天章問世

首個基于DCFormer架構的通用大模型

作為國內最早做LLM(大語言模型)的公司之一,彩云科技在2017年就已經開始做NLP和大模型方面的工作。目前,彩云科技旗下有彩云天氣、彩云小夢、彩云小譯三款面向C端用戶的AI產品,是國內為數不多能夠實現盈利的人工智能公司。

“世界最強的小說續寫通用模型。”溝通會上,袁行遠向大家展示了首個基于DCFormer架構的通用大模型云錦天章。“這個成語是比喻文章極為高雅、華美,和我們的大模型想要實現的效果有共通之處。”袁行遠介紹,云錦天章可以實現在虛構世界觀的基礎上,賦予小說人物編程、數學等基礎能力,可以高速針對大量文字進行擴寫、縮寫,針對文章風格進行大容量更換,同時兼具其他模型的問答、數學、編程等基礎能力。


而在應用端,擁有四百萬用戶的彩云小夢,也迎來了基于全新DCFormer架構的V.3.5版本。與之前的版本相比,彩云小夢V3.5整體流暢性和連貫性提升了20%,支持前文長度由2000字提升至10000字,故事背景設定最長長度高達10000字。

“這意味著,在故事創作或者與人工智能對話中,人工智能能夠記住之前發生的事情,記住之前故事里發生的細節,人物記得自己明確的目標,并且會根據劇情及時進行反思修正。在做到自主創作的同時,發散性收斂,不會天馬行空,人物性格前后一致,故事邏輯性更強。”


“深度對話,超長記憶,邏輯清晰。”袁行遠總結彩云小夢V3.5的特征,“我們的目標是為用戶打造指尖伴侶定制夢境。”

袁行遠表示,彩云小夢的用戶單次使用時長,累計使用時長在同類產品中都處于遙遙領先的地位,“對話超過400句,你會發現彩云小夢真正的魅力。”

袁行遠介紹,公司接下來將繼續加大對DCFormer的研究和投入:“一方面有打破‘國外做技術層,國內做應用層’刻板印象的情懷所在,一方面也是為公司自有產品應對市場競爭,實現快速迭代升級和能力領先的現實需要。”

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
馬健:20歲時在球場不知什么叫累 體脂率只有5.3%&亞洲戰績全碾壓

馬健:20歲時在球場不知什么叫累 體脂率只有5.3%&亞洲戰績全碾壓

直播吧
2025-06-08 10:03:23
“考場出來沉默了”,高考數學爆上熱搜

“考場出來沉默了”,高考數學爆上熱搜

極目新聞
2025-06-07 19:33:42
1970年,陳獨秀次女綁油桶偷渡香港,剛上岸遇警察,結果意外

1970年,陳獨秀次女綁油桶偷渡香港,剛上岸遇警察,結果意外

普覽
2025-06-05 21:48:08
初代網紅獸獸近況:38歲顏值下滑,嫁富商生兩子,開賬號熱度仍在

初代網紅獸獸近況:38歲顏值下滑,嫁富商生兩子,開賬號熱度仍在

南南說娛
2025-05-13 10:08:07
上海剛剛宣布:預警解除!熬過這波就好了,已明顯減弱

上海剛剛宣布:預警解除!熬過這波就好了,已明顯減弱

上觀新聞
2025-06-08 14:21:57
桃子的“死對頭”,醫生提醒:二者萬不可同吃,吃桃子禁忌要牢記

桃子的“死對頭”,醫生提醒:二者萬不可同吃,吃桃子禁忌要牢記

阿龍美食記
2025-06-07 10:54:17
西安高溫黃色預警!連續三天!最高氣溫將升至37~40℃

西安高溫黃色預警!連續三天!最高氣溫將升至37~40℃

環球網資訊
2025-06-08 17:34:02
5日15:00《最強氧氣》:Blackmagic Design 2025年新品(七)

5日15:00《最強氧氣》:Blackmagic Design 2025年新品(七)

Cgangs創動力
2025-06-05 09:41:06
全世界有個未解之謎,那就是40年沒打仗,中國實力到底有多強?

全世界有個未解之謎,那就是40年沒打仗,中國實力到底有多強?

火山雜談
2025-06-08 10:14:18
淚目、扎心:菏澤考生躺在人行道上午休,媽媽拿著扇子不停的扇

淚目、扎心:菏澤考生躺在人行道上午休,媽媽拿著扇子不停的扇

小人物看盡人間百態
2025-06-07 23:38:44
美國:不承認俄在烏境內任何行政管轄權,英國對俄發出核反擊聲明

美國:不承認俄在烏境內任何行政管轄權,英國對俄發出核反擊聲明

史政先鋒
2025-06-06 11:05:59
河北一在建大橋支架垮塌致2死3傷,交通運輸部提級管控并掛牌督辦

河北一在建大橋支架垮塌致2死3傷,交通運輸部提級管控并掛牌督辦

極目新聞
2025-06-08 10:05:57
朝鮮將“無條件地”繼續援助俄羅斯

朝鮮將“無條件地”繼續援助俄羅斯

一種觀點
2025-06-05 20:06:38
以軍確認哈馬斯10·7行動指揮中心設于加沙歐洲醫院下方

以軍確認哈馬斯10·7行動指揮中心設于加沙歐洲醫院下方

桂系007
2025-06-08 12:28:50
蜘蛛網2.0!俄軍列車遭烏軍無人機重創,團級裝備化為烏有!

蜘蛛網2.0!俄軍列車遭烏軍無人機重創,團級裝備化為烏有!

國際情爆猿
2025-06-08 07:41:09
西媒:與巴薩開戰!33歲隊長怒不可遏,不接受談判不離隊

西媒:與巴薩開戰!33歲隊長怒不可遏,不接受談判不離隊

葉青足球世界
2025-06-08 16:14:16
遭母親打罵、嫁中國8年不受歡迎,李在明當選后,輪到46歲她火了

遭母親打罵、嫁中國8年不受歡迎,李在明當選后,輪到46歲她火了

麥大人
2025-06-07 12:59:50
警惕!身上長了這種“小凸起”,千萬別隨便摳!

警惕!身上長了這種“小凸起”,千萬別隨便摳!

魯中晨報
2025-06-05 13:54:05
1-0!印尼隊高興早了,贏中國隊也難進世界杯,遭西亞隊包圍

1-0!印尼隊高興早了,贏中國隊也難進世界杯,遭西亞隊包圍

何老師呀
2025-06-08 09:12:16
越南一卡拉ok老板,與13歲女服務員,發生5次關系,被判30年

越南一卡拉ok老板,與13歲女服務員,發生5次關系,被判30年

越南語學習平臺
2025-06-08 09:04:48
2025-06-08 18:23:00
了不起的程序員 incentive-icons
了不起的程序員
平凡的人也能做了不起的事
521文章數 1665關注度
往期回顧 全部

科技要聞

馬斯克"越紅線",美政府急尋SpaceX替代品

頭條要聞

特朗普派國民警衛隊前往洛杉磯后發文:加州州長無能

頭條要聞

特朗普派國民警衛隊前往洛杉磯后發文:加州州長無能

體育要聞

冠軍高芙:只要專注自己 太陽就會照常升起

娛樂要聞

結婚15年紀念!孫儷發長文談夫妻感情

財經要聞

暴漲超9%!白銀狂飆,“搶奪”黃金光環!

汽車要聞

復古造型樂趣依舊 寶馬R12 nineT又帥又好騎

態度原創

游戲
教育
旅游
本地
公開課

《GTA6》再爆猛料:主角擁有“死神之眼”!

教育要聞

2025高考怕不是被資本做局了吧!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

本地新聞

非遺里的河南 | 黃河泥變身千年墨寶,寫字都帶仙氣兒~

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 瑞丽市| 广水市| 尼木县| 清水县| 关岭| 遂溪县| 泸溪县| 健康| 昭苏县| 岑溪市| 安新县| 涟水县| 文登市| 民权县| 青川县| 清流县| 蕲春县| 岑溪市| 福州市| 斗六市| 石嘴山市| 施甸县| 德庆县| 木里| 新泰市| 玛沁县| 阳西县| 扶余县| 安岳县| 怀远县| 晴隆县| 务川| 余姚市| 津市市| 抚顺市| 临湘市| 浮山县| 巴南区| 建水县| 长泰县| 新泰市|