99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

親測OpenAI o3的10個案例,20美金/月雇跨學科博士做助理

0
分享至


一直以來,OpenAI 的o1模型都是推理模型的巔峰,其DeepResearch功能就是憑借o系列的基座能力,在市場上贏得了口碑。

不過,可能生成報告的模式,讓大家始終覺得搜索升級沒啥看頭,大家很難體會AI的研究能力。

在昨晚發布的o3和o4、o4 mini模型中,實現了以下能力的躍遷:

整體推理能力:對真實、復雜任務的專家打分顯示,o3 的重大錯誤比上一代?o1?少?≈20?% ?視覺多模態:在大學水平的多學科視覺推理基準?MMMU,o3 82.9?%?→?GPT?4 34.9?%,絕對提升?≈48?分,相當于 2.4?× 的相對提升 ?競賽數學:AIME?2024 單次作答 o3 91.6?%,而 GPT?4o 只有 12?% 左右,提升 >7?× ?上下文長度:o3 200?k 輸入窗口?vs?GPT?4 8?k,且輸入/輸出 token 價格僅為 GPT?4 的約 1/3?2/3

AI呈現了一定程度的研究能力,為了能讓大家更直觀感受到大模型在各個領域場景下,高水平處理任務的能力。

鯨哥實測了10個案例,我們能看到o3的分步推理思考過程,很多復雜的問題真正在研究,以及利用工具解決!


1、化身福爾摩斯,看圖猜測背景信息:

鯨哥在o3上傳了一張菜單,要求ChatGPT猜出來是哪家飯店。


可以看到o3分析了菜品和價格,并搜索了大眾點評的數據,提出指紋式的菜名+價格組合只有在四季民福出現,最終答對了!


2、識別圖片內容信息,成為植物學家:

識圖能力在此前的眾多大模型中都已經具備,但這次是給大模型加大難度,用一大束花,讓GPT識別都有哪些花束。


最終o3識別出了8種主要的花束,展現了對復雜內容的理解。


3、做考公 圖推題,o3當小學題題目做

在考公題目中,經常有圖推題出現。這些題目往往具有一定的難度,考驗模型對圖片理解以及意識推理的能力。


這道考公題并不容易,GPT用幾種形狀來找規律,最終選擇了答案D。當然,這道題也有爭議,粉筆網給出的答案是D,但很多人認為是B。

只是19秒做完這題,o3估計覺得這題沒多復雜,都是小學生題。


4、數學計算能力更強,重大錯誤比o1強20%

在數學計算中,此前o1開始計算哥德巴赫猜想,讓大家吃了一驚。當然,也沒有計算出來,卻顯示出推理大模型的強悍之處。

鯨哥拿一道DeepSeeK做錯的數學題,考驗o3的進化能力。


這道題不太難,但是DS的幻覺率需要人為矯正。


而o3很快就得出了正確答案,數學題是推理模型的阿克琉斯之踵,o3有進步。


5、調用OpenAI內部工具,除了不能做視頻

在這里,我們先讓o3深度調研下『2025年北京夏天可能火的食物』這一主題。o3從全網內容中獲取了最新的5款食物銷量,得出了結論。


o3最看好 乳茶2.0這款產品,接著讓o3做一張輕乳茶2.0的宣傳海報,o3會思考任務交代中沒有明確提示要Midjourney生成,那就是不僅要生成Prompt,還需要調用4o模型直接生成圖片。


接著我們讓o3直接生成輕乳茶的電商網頁,以動態可視化的HTML網頁形式運行。現在GPT還可以直接運行代碼,實時預覽,很方便。


可以看到右下角還有修復提示,這也是本次o3的重要提升,當它意識到程序有Bug時,就會實時提示可以修復真實代碼,這對于AI編程落地很關鍵。



6、創意視頻生成,后續結合Sora才有前景

o3其實作為LLM,本身不支持生成視頻,但是我們還是要求他生成視頻,考驗它解決問題的思路,這里鯨哥給到的是飛機和魚的創意故事。


o3是逐幀生成了圖片,然后做成gif形式的視頻。

可以看到最終生成的視頻內容,是一架飛機路過,伸出了魚鉤,釣起魚飛走了。這個創意讓我想起來一個歌:『海鳥與魚相愛,只是一場意外』


7、代碼能力和真實物理能力測試

這次公告中,官方稱在“修 bug”基準?SWE中,o3 解決?69.1?% 問題,而 GPT?4o 只解決 33?%左右,代碼能力 ≈2?倍提升。

實測中,生成代碼的審美確實沒什么進步,以下是o3生成的100個小球碰撞的物理實驗,這個效果差強人意。


和下圖對比看,相比o1的還遜色不少,o系列模型確實在代碼編程方面,始終沒有超越Claude3.7。尤其前端UI這塊,水平還是差不少,GPT-4.1也不行。



8、科技商業問題推理,最終寫成文章

在這道題中,鯨哥用比較有門檻的科技商業文作為寫作題目,而且要求中間插入數據分析以及戰略路徑歸納,最終得出結論。


生成的分析深度還可以,只是沒學會吳曉波老師的文筆。

一直以來,ChatGPT的寫作能力都略遜Claude3.7,從目前看,語言的風格化以及潤色程度,比3.7確實還有距離,但是數據和邏輯分析,以及概念的引用都不錯。像是個不經常寫文章,而是經常做研究的博士,寫出來比較硬的內容。


9、視頻分析能力,對多媒體的理解能力

我們在Youtube上找了個萬人大合唱的合集,然后讓他分析這是什么內容,以及為什么能爆火。


o3解讀出了都包括哪些歌,然后分析了爆火的底層邏輯。感覺對于IP孵化類博主是個福音,大家以后能用o3直接寫爆款分析課程了。


10、生成深度研究報告,o3表現更好

我們調用o3模型的深度思考能力,生成了一份行業報告。o3用了不到20分鐘生成了這份1萬多字的報告。


還是先思考后搜索的思路,內容較o1版也有一定程度的提升。

報告全文在這里:https://chatgpt.com/share/6800bf78-bac8-8005-82e4-07c686e121e6

o4mini更適合批量客服回答等強調性價比場景,所以本文沒有測試。Altman還提到,o3 Pro版本將在未來幾周內到達,能力應該比本文測試的o3更強,但也意味著價格更貴。

在Plus賬號中,你能大范圍使用ChatGPT 的所有能力,尤其o3的20美金每月費用,相當于花近200多元雇傭了一個跨學科博士生在身邊做助理,大家覺得值不值呢?

視頻內容推薦:

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
泰柬問題升溫,中國重炮回應,南部邊境紅線絕不允許任何人觸碰!

泰柬問題升溫,中國重炮回應,南部邊境紅線絕不允許任何人觸碰!

林子說事
2025-07-25 19:26:25
原外交副部長周南:香港回歸前,英國每年從香港拿走上千億人民幣

原外交副部長周南:香港回歸前,英國每年從香港拿走上千億人民幣

歷史縱觀
2025-07-24 22:12:19
0-2!王欣瑜無緣決賽,輸球原因曝光,主辦方做法遭質疑,不公平

0-2!王欣瑜無緣決賽,輸球原因曝光,主辦方做法遭質疑,不公平

侃球熊弟
2025-07-25 23:44:26
知名湘菜品牌被曝拖欠千萬元貨款!品牌方獨家回應

知名湘菜品牌被曝拖欠千萬元貨款!品牌方獨家回應

藍鯨新聞
2025-07-25 16:03:22
36款熱門車高危智駕場景測試,“團滅”!

36款熱門車高危智駕場景測試,“團滅”!

第一財經資訊
2025-07-25 13:35:25
國家出手6位首富被抓!有些已入外籍,原因曝光,早該迎來這一天

國家出手6位首富被抓!有些已入外籍,原因曝光,早該迎來這一天

阿傖說事
2025-07-19 07:50:26
施幼珍:不哭不鬧不上吊,拿捏死宗慶后僅用一招,她才是真正王者

施幼珍:不哭不鬧不上吊,拿捏死宗慶后僅用一招,她才是真正王者

普覽
2025-07-17 19:04:48
考生稱被“廈大馬來分校”誤錄取,考609分最后選擇復讀

考生稱被“廈大馬來分?!闭`錄取,考609分最后選擇復讀

大象新聞
2025-07-24 20:01:22
涉嫌嚴重違紀違法!惠州市委社會工作部副部長葉思南被查

涉嫌嚴重違紀違法!惠州市委社會工作部副部長葉思南被查

南方都市報
2025-07-25 14:44:29
微信轉賬時,出現這四個字,一定要停止轉款,即便是熟人也不行

微信轉賬時,出現這四個字,一定要停止轉款,即便是熟人也不行

農村情感故事
2025-07-16 13:33:48
克林頓:我一生有兩件事感到很遺憾,一中國加入WTO,二我做錯了

克林頓:我一生有兩件事感到很遺憾,一中國加入WTO,二我做錯了

趣文說娛
2025-07-24 17:22:53
布蘭科:如果沒有拉瑪西亞,巴薩可能已經垮掉了

布蘭科:如果沒有拉瑪西亞,巴薩可能已經垮掉了

懂球帝
2025-07-26 00:55:07
馬被拴在巨石50多天,啃光腳下的草,被救后它眼里流出來淚水

馬被拴在巨石50多天,啃光腳下的草,被救后它眼里流出來淚水

雪靈谷
2025-07-24 10:58:07
8年前,那個卷走父親全部300萬積蓄到國外揮霍的18歲女孩,咋樣了

8年前,那個卷走父親全部300萬積蓄到國外揮霍的18歲女孩,咋樣了

趣談人物紀
2025-07-23 12:00:03
理想i8亮相首周激戰樂道L90:線上爭到線下,用戶群體涇渭分明

理想i8亮相首周激戰樂道L90:線上爭到線下,用戶群體涇渭分明

駕仕派
2025-07-23 13:35:15
火箭欲再簽強援!3屆東部全明星聯手杜蘭特,休城沖擊總冠軍

火箭欲再簽強援!3屆東部全明星聯手杜蘭特,休城沖擊總冠軍

埃文凱爾
2025-07-26 00:34:47
陪練為主!廣東2米26小將連續2戰遭棄用 郭士強或另有安排

陪練為主!廣東2米26小將連續2戰遭棄用 郭士強或另有安排

狼叔評論
2025-07-26 00:13:10
開心!中超第18輪央視又直播北京國安比賽了 大愛塞蒂恩傳控足球

開心!中超第18輪央視又直播北京國安比賽了 大愛塞蒂恩傳控足球

80后體育大蜀黍
2025-07-25 23:55:26
丟人!郭士強關系戶全場3中0,運動戰0分,球迷:趕緊把他裁了

丟人!郭士強關系戶全場3中0,運動戰0分,球迷:趕緊把他裁了

南海浪花
2025-07-25 08:29:37
大鬧北京地鐵大媽社死!辱華罵人太囂張,直言美國更好,正臉曝光

大鬧北京地鐵大媽社死!辱華罵人太囂張,直言美國更好,正臉曝光

奧字侃娛
2025-07-24 15:30:13
2025-07-26 01:51:00
鯨選AI incentive-icons
鯨選AI
最新AI產品化與商業化案例速遞
99文章數 20關注度
往期回顧 全部

科技要聞

36款熱門車高危智駕場景測試,“團滅”!

頭條要聞

8旬翁下葬前墓地被人埋死狗沿路埋鐵釘暗器 官方介入

頭條要聞

8旬翁下葬前墓地被人埋死狗沿路埋鐵釘暗器 官方介入

體育要聞

3年過去了,她還是歐洲杯上最酷的姐

娛樂要聞

汪蘇瀧不忍了 !張碧晨痛失《年輪》演唱權

財經要聞

劉煜輝:當下重要不是找確定性而是轉折點

汽車要聞

李斌一口氣講了近3個小時樂道L90 原因是為啥?

態度原創

教育
數碼
健康
藝術
房產

教育要聞

再獲國際物理奧賽金牌,南師附中學子勇登世界之巔!

數碼要聞

谷歌Pixel Watch 4智能手表曝光:充電口更改,配色更多

呼吸科專家破解呼吸道九大謠言!

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

房產要聞

分數線集體飆漲!海中867分!2025海南中招格局大變!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 嵩明县| 广德县| 平顶山市| 咸宁市| 阿克陶县| 曲沃县| 绥芬河市| 临澧县| 彭泽县| 潮安县| 曲阜市| 谢通门县| 伊春市| 比如县| 武威市| 石家庄市| 和平县| 翁牛特旗| 文成县| 泸州市| 老河口市| 澜沧| 张北县| 蒙山县| 谢通门县| 蓬安县| 墨玉县| 广汉市| 溧阳市| 修水县| 凉城县| 中西区| 津南区| 青浦区| 晋江市| 景德镇市| 宁国市| 安图县| 肃宁县| 榆中县| 余庆县|