昨天 Open AI 發(fā)布 o3 之后,早上嘗試的的時候被 OpenAI 的降智快要折磨的砸電腦了。
剛好字節(jié)給開放了今天發(fā)布的豆包1.5深度思考模型,包含一個語言模型Doubao-1.5-thinking-pro,還有一個視覺版Doubao-1.5-thinking-pro-vision使用權(quán)限。
順手用一些案例測試了一下,結(jié)果發(fā)現(xiàn)這倆玩意相當可以啊。
語言模型作為一個總大小 200B 激活參數(shù) 20B 的 MoE 模型,從規(guī)模上差 o3 很遠。
但是 o3 可以完成的一些日常任務(wù),Doubao-1.5-thinking-pro在給了一些提示后都能完成而且完成的不錯。
這要再整個規(guī)模大點的模型,又可以不受 Open AI 的氣了。更令人好奇的是視覺版Doubao-1.5-thinking-pro-vision,目前還沒披露詳細的技術(shù)報告。
我們還是來看一下測試結(jié)果。
根據(jù)照片推理位置
o3 最著名的一個用例就是根據(jù)圖片推論圖片拍攝的位置,我從小紅書找了一個徒步路線的圖片,想試試豆包模型能不能搞定,這是河北的易水湖景區(qū),沒想到真的可以,離譜了。
發(fā)給豆包模型之后他根據(jù)湖水、植被類型、山脈特征判斷大致位置,之后有根據(jù)我的徒步路線這個信息思考了華北的類似區(qū)域和徒步路線最后確定了徒步線路的位置。
后面根據(jù)這個信息給出了這條路線的詳細信息,還有徒步需要準備的東西和注意事項。
根據(jù)冰箱內(nèi)容定制食譜
是不是想減肥但不知道每天應(yīng)該怎么吃,Doubao-1.5-thinking-pro-vision 幫你識別冰箱中的所有食物并且結(jié)合你的身高、體重和運動量量確定每天的三大營養(yǎng)素攝入指標,身為你定制減肥食譜。
他還會提醒你冰箱里哪些需要少吃,另外會推薦最優(yōu)的方案,也可以提供了冰箱食物的替代版本。
根據(jù)照片判斷車禍原因和責任
很多朋友可能喜歡看車禍事故視頻下飯或者自己開車不好判斷事故責任問題,我們在小紅書找一個撞車事故的圖片,看看豆包模型能不能猜出事故的原因。
我本來不報期望的,因為這個圖片的信息太少了,紅綠燈之類的都沒有,但是豆包模型還是基于兩車接觸位置和摔倒的姿態(tài)判斷出了車禍的原因,就是因為視野盲區(qū)加車主沒注意撞了摩托車,說明圖片信息真的參與了推理過程。
育兒家居改造建議
豆包這個視覺思考模型視覺版也支持多張圖片進行推理。
這里我上傳了一個房子不同房間和角度的照片,讓豆包給出可以為孩子降生做的家裝整改建議。
他分析了現(xiàn)在屋子的陳設(shè)以后先是給出了一些針對安全的建議,后面針對方便育兒給出的物品陳列和擺放建議也很實用,還設(shè)計了安全防護 + 動線便利 + 彈性收納三步走的調(diào)整策略,非常條理。
AI 編程和多模態(tài)就是今年最重要的兩條主線敘事,Open AI 靠著在多模態(tài)和生成上的爆發(fā)在今年繼續(xù)站穩(wěn)了自己的位置。
而且無論是視覺推理還是多模態(tài)圖片生成都是非常前沿的結(jié)果。
不得不說字節(jié)真的很有前瞻性,豆包文生圖Seedream3.0(即夢3.0接入的模型)和豆包Doubao-1.5-thinking-pro-vison在這兩個層面都在發(fā)力,現(xiàn)在也有了一些不錯的成果。
我們有理由相信他們會是國內(nèi)最快能夠追上 Open AI 在這兩個層面進度的公司。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.