【CNMO科技消息】幾個月來,關于蘋果計劃推出AI智能穿戴設備的傳聞和報道層出不窮。目前看來,蘋果的智能眼鏡有望在2027年左右發布,這將是Meta Ray-Bans的直接競爭對手,同時還將推出帶有攝像頭的AirPods,這些設備都將具備一系列AI功能。盡管目前尚不清楚這些設備的具體外觀,但蘋果已經向我們展示了其AI模型可能的工作方式。
2023年,蘋果機器學習研究團隊發布了MLX,這是蘋果專為其芯片設計的開源機器學習框架。簡而言之,MLX為開發者提供了一種輕量級的方式,可以在蘋果設備上本地訓練和運行模型,同時保持與傳統AI開發框架和語言的一致性。
蘋果的新型視覺模型FastVLM,能夠快速準確地識別用戶舉起的手指數量、屏幕上顯示的表情符號以及手寫文字。
如今,蘋果推出了FastVLM,這是一種視覺語言模型(VLM),它利用MLX實現近乎即時的高分辨率圖像處理,同時對計算資源的需求遠低于同類模型。正如蘋果所說:“基于對圖像分辨率、視覺延遲、標記數量和LLM大小之間相互作用的全面效率分析,我們推出了FastVLM——這是一個在延遲、模型大小和準確性之間實現優化權衡的模型。”
FastVLM的核心是一個名為FastViTHD的編碼器,該編碼器“專為高分辨率圖像的高效VLM性能而設計”。與類似模型相比,它速度高達3.2倍,體積小3.6倍。如果設備需要在本地處理信息,而不是依賴云端來生成用戶剛剛詢問(或正在查看)的內容的響應,這一點至關重要。
此外,FastVLM在設計時還考慮了減少輸出標記數量,這在模型解釋數據并生成響應的推理階段也至關重要。據蘋果稱,其模型的首次標記響應時間比類似模型快85倍,即用戶發送第一個提示并收到第一個標記答案所需的時間。更少的標記、更快且更輕量的模型意味著更快的處理速度。
FastVLM的代碼已在GitHub上發布,相關報告可在arXiv上找到。雖然閱讀起來有一定難度,但對于對蘋果AI項目技術細節感興趣的人來說,絕對值得一讀。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.