10月29日消息,全球權威的開放源代碼促進會(Open Source Initiative,OSI)發布了關于“開源AI定義”。根據該定義,真正開源的AI大模型必須提供訓練數據的詳細信息、完整的構建和運行AI的代碼以及訓練時的設置和權重。
OSI稱,新定義是為了避免當前行業中對“開源大模型”的過度營銷和使用誤解。據此標準,當前市場上表面開源的大模型幾乎都“名不副實”,包括大名鼎鼎的“開源大模型”標桿Llama和Gemma。
OSI是多年來一直負責管理開放源代碼定義(OSD)。在過去兩三年中,OSI發現傳統的“開源”定義并不適用當前火熱的AI大模型。因為AI大模型比傳統開源軟件更復雜:它不僅包含代碼,還涉及大量的數據、復雜的模型架構以及訓練過程中的各種參數等。而這些數據的收集、整理、標注等過程都對模型的性能和結果產生重要影響。傳統的開源定義無法全面涵蓋這些新的要素,導致在AI領域的適用性不足。
2023年,OSI對市場上的大模型調查發現,表面上開源的大模型幾乎都“名不副實”。Hugging Face應用政策研究員Avijit Ghosh表示,將大模型描述為“開源”可能會使它們被認為更值得信賴。Meta和Google宣傳的免費模型似乎任何人都可以調整,但并不是真正的“開源”,它限制了用戶可以對模型做什么,而且訓練數據集并不公開。
去年6月,OSI表示將為開源AI重新設置定義。它邀請了70人專家組,包括研究員、律師、政策制定者和大型科技公司代表等,來共同協商制定AI開源定義。
如今,OSI正式宣布了開源AI定義(OSAID)1.0版。根據新定義,AI大模型若要被視為開源有三個要點:
· 訓練數據透明性:必須提供足夠的信息,使任何人能夠“實質性”地重建該模型,包括訓練數據的來源、處理方式和獲取方式;
· 完整代碼:需要公開用于訓練和運行AI的完整源代碼,展示數據處理和訓練的規范;
· 模型參數:包括模型的權重和配置,需提供相應的訪問權限。
OSAID還規定,開發者應享有使用、修改和共享模型的自由,而無需獲得他人許可。對于新定義,獨立研究員和開放源代碼創建者Simon Willison稱,“既然我們已經有了一個強有力的定義,也許我們可以更積極地抵制那些開源洗白(open washing)并宣稱自己的工作是開源的公司。”
此前,國內市場也爆發了“大模型開源閉源”之爭。某企業負責人曾公開表示,“很多人混淆了模型開源和軟件開源的概念”。所謂的“開源大模型”其實并未開放訓練源代碼、預訓練和精調數據等影響模型效果的關鍵信息,所以這些模型無法像開源軟件一樣,靠社區開發者一起參與來提升效果和性能。應用“開源大模型”的企業,其實很難迭代并優化這些模型,以至于無法高效地應用于企業場景。基于這些原因,閉源模型更適合商業化。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.