99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

weaviate v1.31.0發布,全新命名向量兼容、MUVERA編碼、HNSW快照、BM25邏輯升級,助力智能搜索進入新時代

0
分享至


向量數據庫 Weaviate 自 1.0 版本問世以來,一直以「性能極致」「模塊生態」「開箱即用」著稱。2025 年 5 月 30 日,官方正式放出了 v1.31.0。相比上一版,這一次沒有“破壞性變更”,卻帶來了超過 200 個功能點、性能優化與問題修復。本文為你提煉關鍵亮點,并對重要特性進行深度解讀,幫助開發者、架構師、數據科學家第一時間吃透升級價值。

二、本次版本的五大核心升級

  1. 1. 向后兼容的 Named Vectors

  2. 2. 全新 MUVERA 編碼器

  3. 3. HNSW 向量索引快照化

  4. 4. BM25 支持 AND / OR 最小匹配

  5. 5. 副本移動(Replica Movement)初步開放

下面詳細展開。

三、向后兼容的 Named Vectors

  1. 1. 用途
    ? 過去,我們一次只能給每條對象存一條“默認向量”。
    ? 多模態、多任務場景日益增多,例如同時存圖像向量、文本向量、Meta 向量,迫切需要“一條記錄多向量”。
    ? Named Vectors 正式轉正,并兼顧舊集合(Legacy Vector)。

  2. 2. 主要改動
    ? 自動建模時,默認直接創建命名向量,而不是傳統默認向量。
    ? 老集合若混用新舊配置,可用 default 名稱“指向”舊的向量列,平滑過渡。
    ? 運行中給已有集合追加新的命名向量不再需要額外開關——策略改為“默認開啟”。

  3. 3. 影響評估
    ? API 不變:插入/查詢時只需在 body 中加上 vectors 字段及其子名稱。
    ? 性能:內部結構由一列擴展為 N 列,單條寫入/讀出略增 5%~8% 開銷,但遠小于多表拆分成本。
    ? 升級建議:依賴舊版 SDK 的項目,先確認 SDK 版本 ≥1.31.0,否則 Named Vectors 字段可能無法序列化。

四、MUVERA 編碼器

  1. 1. 什么是 MUVERA
    ? Multi-Vector Embedding with Repetition and Aggregation,由 Weaviate 社區提出的多向量自動重復聚合策略。
    ? 通過設置 repetitions 參數,對同一段文本進行多次“隨機掩碼 + 嵌入”,最后匯聚,能顯著提升檢索穩定性。

  2. 2. v1.31.0 更新
    ? MUVERA 編碼內置并可在 class 索引級別啟用。
    ? 默認 repetitions 從 4 調整到 6,在公開英語、法語數據集上 top-10 命中率平均提升 2.3~3.1 pp。

  3. 3. 適用場景
    ? 搜索召回“漏檢”痛點嚴重的長尾語料。
    ? 多語言、口語化文本庫。

五、HNSW Snapshotting

  1. 1. 痛點
    ? 客戶端批量寫入時,HNSW 構圖成本高;若節點瞬斷,需要重建圖,耗時數十分鐘。
    ? 備份還原場景中,重放 WAL 也會因圖不存在導致性能抖動。

  2. 2. 新能力
    ? 支持周期性快照,周期通過環境變量或 runtime config 指定,默認 10 分鐘。
    ? 快照文件采用增量方式,僅存儲新增節點的鄰接信息。
    ? 恢復時先加載最近快照,再對剩余增量重新構圖,速度縮短 10~20 倍。

  3. 3. 兼容性
    ? 若關閉快照(snapshotting: false),行為與舊版本一致;升級不強制改造。

六、BM25 AND/OR + Minimum Should Match

  1. 1. 背景
    ? 經典 BM25 在全文檢索中常用,但 Weaviate 早期實現僅支持單一關鍵字列表(must match any)。
    ? 復雜檢索需要靈活表達式——「A AND B」或「(A OR B) AND C」。

  2. 2. 本次改進
    ? where 子句新增 minimumOrTokensMatch,可設置按 OR 邏輯命中數閾值。
    ? 同時引入顯式 AND 語義,開發者可單獨聲明必須出現的 token。
    ? 對計算密度高文本集合的實測:AND / OR 混用查詢延遲提升不超過 5 ms,召回準確率大幅提高。

七、副本移動(Replica Movement)
(當前處于 “默認關閉” 狀態,需顯式打開 runtime_config.replication.movementEnabled)

  1. 1. 背景
    ? 分片副本在多節點集群中經常需要“搬家”,例如節點擴容、縮容、故障下線。
    ? 之前只能全局重分片,運維成本高。

  2. 2. v1.31.0 能力
    ? 支持“復制”與“移動”兩種模式:
    —— 復制:從源節點文件級 copy 到目標節點,實現副本數 +1;
    —— 移動:拷貝完成后,異步同步殘留寫操作,再刪除源。
    ? 內置有限狀態機(FSM)管理生命周期:INIT → COPYING → FINALIZING → READY。
    ? 提供 RESTful 接口:GET /v1/replication/replicate/{id}、DELETE、force-delete 等。

  3. 3. 注意
    ? 監控:Prometheus / Grafana 模板同步更新,可查看復制速度、排隊長度、錯誤率。
    ? 當前版本將功能關閉,官方給出原因是“對大規模負載要繼續壓測”;生產試用請充分演練。

八、性能升級一覽

  1. 1. Thread-safe 隊列 & 向量索引重構——多核寫入吞吐提升 ~16%

  2. 2. Stand-alone K-means 算法全面串行→并行——分桶初始化提速 11 倍

  3. 3. 內存段 Rangeable Index + Buf Pool 引入——高并發檢索 RSS 降低 20%

  4. 4. WAL 重用——重啟場景下的恢復時間降低 40%

  5. 5. 優化 mmap 讀頭策略——資源占用下降,IO wait 減半

  6. 6. Segment 寫入批量 flush 合并——日志寫放大降低 28%

九、模塊生態新成員

  1. 1. voyage-3-large / voyage-3.5
    ? 面向海量多語言語義搜索的 embedding 服務

  2. 2. tex2vec-model2vec
    ? 通用型文本嵌入,需要自建模型或調用外部 API

  3. 3. text2vec-huggingface 最新 API 對齊

  4. 4. 新增 Cohere v3.5 重排序模型支持

  5. 5. Google Gemini 默認模型從 1.0-pro-vision 更換為 2.0-flash-001

十、穩定性與安全修復

  1. 5. Azure OpenAI 響應解析修正
    針對與 Azure OpenAI 服務對接時的響應格式變動,進行了兼容性修復,確保外部調用穩定無誤。

  2. 6. RBAC 權限管理完善
    補全了從老版本到新版本的角色權限快照升級和降級路徑,保證用戶權限數據在版本遷移時不丟失、不同版本間能平滑過渡。

  3. 7. 防止內存泄露及寫入競態
    新增多種保護措施和代碼改進,避免在并發寫入和索引構建過程中的競態條件,提升系統穩定性,降低宕機風險。

  4. 8. HNSW 索引“幽靈節點”清理
    修復了因異常終止導致的鄰接列表中殘留無效節點(幽靈節點)問題,避免索引查詢異常或性能退化。

  5. 9. WAL 日志空文件問題解決
    清理和擦除了無用的空白 WAL 文件,改善磁盤使用效率,防止空間浪費,提升存儲穩定性。

十一、性能優化深度解讀

  1. 1. 線程安全的向量索引訪問
    重新設計寫入和讀取隊列,利用更細粒度的鎖和無阻塞結構,實現多線程下的高效并發訪問,寫吞吐量提升約16%。
    實際項目中,高并發場景下寫入等待時間顯著縮短,服務響應更流暢。

  2. 2. 并行化的 Stand-alone K-means 算法
    經典聚類算法在單節點環境下升級為并行模式,分桶初始化加速11倍。
    聚類模型重訓練的耗時大幅縮短,有效支持頻繁模型更新的在線實用場景。

  3. 3. 區間索引和緩沖池提升內存利用
    引入 rangeable segment-in-memory 結構,結合多線程安全的緩沖池(buf pool),降低內存碎片和重復分配。
    結果是高并發查詢時 RSS(實際常駐內存量)降低約20%,載入響應更快。

  4. 4. WAL 重用機制
    在節點重啟和數據恢復期間,復用已有的寫前日志(WAL),減少重復磁盤 IO,整體恢復時間縮短40%。
    對應服務重啟和升級場景,系統可迅速恢復正常服務,降低停機時間。

  5. 5. mmap 讀取優化
    通過預計算和智能管理 mmap 文件頭部,有效減少系統調用和磁盤尋址次數,提升文件讀取效率,IO等待時間減半。
    在磁盤 I/O 緊張時段表現尤為明顯。

  6. 6. 批次寫入和刷盤合并
    合并多條索引寫入的刷盤操作,減少磁盤寫放大,寫入效率提升28%,磁盤壽命延長。

綜上,性能優化囊括 CPU、內存、磁盤 IO 多維度,極大提升了 Weaviate 的服務穩定性和吞吐能力。

十二、模塊生態持續豐富

  1. 1. 新增 voyage-3-large 和 voyage-3.5 模型
    針對多語言多模態大規模檢索場景進行優化,高效生成高質量向量表示。適合企業跨語言內容搜索和推薦。

  2. 2. tex2vec-model2vec 模塊
    支持自定義文本嵌入模型接入,方便滿足行業個性化需求。加上 HuggingFace 和 Cohere 模塊更新,用戶擁有更廣泛的選擇。

  3. 3. 兼容開放 API 變更
    更新文本嵌入相關模塊以對齊最新接口規范,兼顧向后兼容,方便用戶酌情升級。

  4. 4. Google Gemini 模型替代
    Gemini-1.0-pro-vision 版本默認更替為效果更優的 Gemini-2.0-flash-001,提升自然語言理解表現,增強下游生成與語義檢索能力。

十三、開發者與用戶指引

  1. 1. 升級注意事項
    ? 備份好當前數據和配置,特別是 RBAC 權限配置與復制狀態。
    ? SDK 和客戶端版本盡量升級至同一主版本,兼容新特性 Named Vectors。
    ? 副本移動(Replica Movement)默認關閉,非專業運維團隊暫勿啟用。
    ? HNSW 快照支持無需開啟即可提升恢復速度,但可根據負載調整周期。

  2. 2. 新特性使用建議
    ? Named Vectors 讓多模態數據管理更便捷,建議新項目默認啟用。
    ? MUVERA 編碼適合多語言文本和噪聲較多環境,開啟后可提升召回穩定性。
    ? BM25 多邏輯查詢能力,適合復雜查詢場景,建議在業務需求明確時采用。
    ? 監控指標和 Grafana Dashboard 更新,建議同時配套部署,實時掌控集群健康。

十四、未來展望

v1.31.0 顯著提升了 Weaviate 的靈活性、性能和可維護性,充分體現向量數據庫日益成熟的趨勢。隨著復制副本管理逐步完善以及多模態支持深化,Weaviate 有望成為更復雜企業應用的首選解決方案。

官方也公布了下一步重點研發方向,包括自動彈性擴縮容方案、模型在線微調支持、以及跨集群全局搜索融合等。敬請期待!

十五、結語

Weaviate v1.31.0 是一次里程碑式更新,集合了命名向量多樣化應用、編碼器進階、索引快照、檢索表達能力加強、復雜副本移動等多維度創新,性能提升與穩定性修復兼備。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
載3000輛汽車的輪船在太平洋起火,含800輛電動汽車 船員已棄船大火還未滅

載3000輛汽車的輪船在太平洋起火,含800輛電動汽車 船員已棄船大火還未滅

紅星新聞
2025-06-05 00:46:25
沒教養?全紅嬋父親曬視頻,全媽又遭網暴,網友質疑,評論一邊倒

沒教養?全紅嬋父親曬視頻,全媽又遭網暴,網友質疑,評論一邊倒

趣文說娛
2025-06-05 15:27:49
移花接木:俄羅斯正竭力掩蓋被摧毀的圖-95MS和圖-22M3戰略轟炸機

移花接木:俄羅斯正竭力掩蓋被摧毀的圖-95MS和圖-22M3戰略轟炸機

零度Military
2025-06-04 21:06:55
太膈應!一業主稱對門鄰居搬進來,入住當天就在門口掛條大紅綢帶

太膈應!一業主稱對門鄰居搬進來,入住當天就在門口掛條大紅綢帶

火山詩話
2025-06-05 17:26:19
美國想用比特幣化解36萬億國債?萬斯瘋狂推銷,歐洲要被忽悠瘸了

美國想用比特幣化解36萬億國債?萬斯瘋狂推銷,歐洲要被忽悠瘸了

青青子衿
2025-06-05 11:29:24
經國務院批準,成立一家新央企

經國務院批準,成立一家新央企

政知新媒體
2025-06-05 12:33:56
國足被淘汰后伊萬發聲!甩鍋氣候艱苦,能看到年輕球員希望!

國足被淘汰后伊萬發聲!甩鍋氣候艱苦,能看到年輕球員希望!

籃球資訊達人
2025-06-06 00:51:48
“千萬不要改答案!”大學生分享高考實戰經驗,網友:這是真讀過書的

“千萬不要改答案!”大學生分享高考實戰經驗,網友:這是真讀過書的

新東方
2025-06-05 12:02:40
中國出手干預!烏克蘭無人機襲擊俄轟炸機,專家觀點得到驗證

中國出手干預!烏克蘭無人機襲擊俄轟炸機,專家觀點得到驗證

說歷史的老牢
2025-06-03 11:08:45
醫生研究發現:每天多吃一個水煮蛋,肝臟代謝異常風險或會升高?

醫生研究發現:每天多吃一個水煮蛋,肝臟代謝異常風險或會升高?

星光看娛樂
2025-06-03 09:57:59
烏將遭到每天500次襲擊?俄損失接近100萬?普京將發動核武報復?

烏將遭到每天500次襲擊?俄損失接近100萬?普京將發動核武報復?

三分亮劍
2025-06-06 00:04:29
突發!美國限制乙烷對華出口,生產商必須申請許可證

突發!美國限制乙烷對華出口,生產商必須申請許可證

北美商業電訊
2025-06-05 17:04:32
楊絳說:記住,和周圍人搞好關系的秘訣就是,不要和他們分享任何成功的喜悅,和任何開心的事兒!

楊絳說:記住,和周圍人搞好關系的秘訣就是,不要和他們分享任何成功的喜悅,和任何開心的事兒!

LULU生活家
2025-03-11 18:21:18
衛生間的這種“蟲子”,千萬不要用手拍!有人因此被迫摘除眼球……

衛生間的這種“蟲子”,千萬不要用手拍!有人因此被迫摘除眼球……

魯中晨報
2025-06-04 11:50:19
誰懂啊?!這部韓劇居然能過審?!

誰懂啊?!這部韓劇居然能過審?!

大眼妹妹
2025-06-05 09:55:47
國足出局后孫繼海質疑伊萬!王大雷低頭表情凝重,詹俊:沒有脾氣

國足出局后孫繼海質疑伊萬!王大雷低頭表情凝重,詹俊:沒有脾氣

體壇紀錄片
2025-06-06 00:13:00
氣溫29℃&濕度80%!開場僅1分鐘,印尼主帥克魯伊維特已汗流浹背

氣溫29℃&濕度80%!開場僅1分鐘,印尼主帥克魯伊維特已汗流浹背

直播吧
2025-06-05 22:09:49
618 手機銷量 TOP10 排名

618 手機銷量 TOP10 排名

劉奔跑
2025-06-05 23:49:06
國足0-1印尼,球員評分出爐:不是王大雷獲最低,而是中國隊17號

國足0-1印尼,球員評分出爐:不是王大雷獲最低,而是中國隊17號

侃球熊弟
2025-06-05 23:49:28
A股:證監會最新發聲,券商尾盤突襲,明天主力資金要行動了?

A股:證監會最新發聲,券商尾盤突襲,明天主力資金要行動了?

虎哥閑聊
2025-06-05 15:32:37
2025-06-06 01:47:00
moonfdd incentive-icons
moonfdd
福大大架構師每日一題
840文章數 31關注度
往期回顧 全部

科技要聞

對話盛景網聯彭志強:跳出SaaS虧損黑洞!從“賣工具”到“賣結果”的AI RaaS轉型法則

頭條要聞

27歲女子被咬傷身亡 三亞衛健委再通報搶救全過程

頭條要聞

27歲女子被咬傷身亡 三亞衛健委再通報搶救全過程

體育要聞

提前無緣美加墨世界杯 國足眾將賽后落淚

娛樂要聞

陳赫宴請好友,李乃文攜妻子罕見亮相

財經要聞

習近平同美國總統特朗普通電話

汽車要聞

旗艦+大六座+百萬級 阿維塔全新SUV預計明年量產

態度原創

房產
手機
旅游
公開課
軍事航空

房產要聞

再奪荔灣銷冠!誰是主城改善標準制定者,終于有了答案!

手機要聞

印度區域iPhone維修業務從緯創轉移 蘋果加大對塔塔的依賴

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

普京明確:沒有人會與“恐怖分子”談判

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 鹤山市| 三明市| 宁陵县| 汾阳市| 梁平县| 东乌| 昌邑市| 罗山县| 桃源县| 灵山县| 资源县| 宁远县| 开封县| 大丰市| 张家港市| 武穴市| 桑植县| 安吉县| 双辽市| 大城县| 大名县| 洛川县| 万源市| 上饶市| 洮南市| 宽城| 石门县| 长治县| 瑞丽市| 沅江市| 塔河县| 兴海县| 马边| 高要市| 宿松县| 新营市| 安顺市| 临安市| 长葛市| 东莞市| 达拉特旗|