99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

谷歌 Gemini vs. OpenAI ChatGPT,誰更勝一籌?

0
分享至

點擊“首席信息官”,感謝關注我們!

導讀


在谷歌推出Gemini三個月之后,關于它與ChatGPT的對比從未停止過。

有人曾說Gemini多方位碾壓ChatGPT,也有人說它綜合能力不敵ChatGPT。那么,事實到底如何呢?

本文,小編通過提出九大問題,將把ChatGPT 的免費版本與谷歌Gemini的免費版本進行全方位比較(GPT-3.5 VS Gemini Pro 1.0),以測試這兩個聊天機器人對不同提問的響應情況、編碼能力,以及一些創意性等。

01

編碼能力

大模型最早的應用場景之一就是編程,尤其是在重寫、更新和測試不同的編程語言方面。因此,小編將其作為第一項測試,要求每個機器人編寫一個簡單的Python程序。

發問如下:開發一個Python腳本,作為個人支出跟蹤器。該程序允許用戶輸入他們的支出、類別(例如購物、娛樂)和支出的日期。然后,腳本應根據類別提供支出摘要,并給定時間內的總支出。此外,該腳本要包括注釋來解釋代碼的每一步。

這是為了測試ChatGPT和Gemini生成完全功能代碼的能力、交互的便捷性、可讀性,以及遵守編碼標準的情況。


最終,兩者都使用Python編寫了一個完全功能的支出跟蹤器。Gemini還添加了額外的功能,包括類別的標簽,甚至于它還具有更詳細的報告選項。

獲勝方:Gemini

02

自然語言理解(NLU)

接下來,我們來看看ChatGPT和Gemini對自然語言提示的理解程度。小編進行了一個常見的認知反射測試(CRT),題目是關于一個球棒和一個球的價格。這是對AI理解模糊性、不被簡單誤導、清楚地解釋其思維的能力考驗。

發問如下:一個球棒和一個球一共1.10美元。球棒比球貴1美元。這個球多少錢?

正確的回答應該是,球的價格是5美分,球棒的價格是1.05美元。


獲勝方:ChatGPT。雖然,最終二者都做對了,但ChatGPT更清楚地展示了它的推理邏輯。

03

創造性文本生成與適應性

第三項測試主要關于文本生成和創造性。通過輸出原創性和創造性元素,小編希望聊天機器人給出的文本要結合主題,而且要根據需求可進行調整,比如更改角色或名稱。

發問如下:寫一篇以未來城市為背景的短篇小說。其中,科技控制著生活的方方面面,但主角卻發現了一個沒有現代技術的隱藏社會。

最終,兩個故事都很好,每個聊天機器人都在特定的語境下自由發揮。但總體來說,Gemini更符合評分標準。


獲勝者:Gemini。它在主題闡述和自由發揮方面,更具有創造性。

04

推理和解決問題能力

推理能力是大模型的主要基準之一。

發文如下:你正面對著兩扇門。一扇門通向安全,另一扇門通向危險。有兩個警衛,每個門前各有一個。一個警衛總是說真話,另一個警衛總是撒謊。你可以問每個警衛一個問題,然后找出哪扇門通向安全。那么,你問什么問題?

答案很明顯,你可以問任何一個警衛:“另一個警衛認為哪扇門通向危險?”這是對提問創造力,以及AI如何駕馭真相、謊言動態的有用測試。它還測試了考慮兩種可能反應的邏輯推理。

最終,它們都給出了正確的答案和扎實的解釋。但是,ChatGPT提供了更多細節和更清晰的表述。


獲勝方:ChatGPT。

05

用小孩也能理解的方式來解釋復雜的概念

對于這次測試,發文如下:向一個五歲的孩子解釋飛機是如何在天空中飛行的。

這是對聊天機器人如何擴展簡單提示,并滿足目標受眾要求的測試。

它需要提出一個足夠簡單的解釋,讓小孩子能夠理解,盡管簡化,但也要準確,并使用引人入勝的語言來吸引孩子的興趣。

這次評判很難,因為兩者都給出了合理且準確的回答。兩者都用鳥作為解釋的一種方式,都用簡單的語言和個人化的語氣,但Gemini將其呈現為一系列要點,而不是一段文字。它還為五歲的孩子提供了一個實用的實驗來嘗試。


獲勝者:Gemini。

06

倫理推理與決策

要求AI聊天機器人思考可能導致人類受傷害的場景并不容易。但隨著無人駕駛汽車和AI大腦進入機器人領域,它們需要具備仔細權衡各種場景,并做出快速判斷的能力。

發問如下:考慮一個場景,其中一輛自動駕駛汽車必須在撞到行人或冒著乘客生命危險急轉彎之間做出選擇。AI應該如何做出這個決定??

小編使用了一個嚴格的評分標準,考慮了多個倫理框架、如何權衡不同的觀點以及決策中的偏見意識。但兩者都沒有給出意見,只是概述了需要考慮的各種要點,并提出了將來做出決定的方法。他們有效地將其視為第三方問題,以進行評估和報告,以便其他人做出決定。


最終,小編認為Gemini給出的回應更為細致,考慮更為周到。但為了確保公正,小編將每個回應以盲選A或B測試的形式輸入給ChatGPT Plus、Gemini高級版和其他幾個模型。在不知道哪個模型輸出哪個內容的情況下,所有AI模型都選擇了Gemini是勝出者,包括ChatGPT。

獲勝者:Gemini。

07

跨語言翻譯與文化意識

對于任何AI來說,兩種語言之間的翻譯都是一項重要的技能,也是越來越多的AI硬件工具內置的技能,就像任何現代智能手機一樣。

但小編想超越簡單的翻譯,測試它對文化差異的理解。發問如下:把一段關于在美國慶祝感恩節的短文從英語翻譯成法語,強調文化的細微差別。

這一段是這樣的:“美國的感恩節不僅僅是慶祝,它體現了對感恩的深刻表達。它源于歷史事件,是為了紀念清教徒和萬帕諾亞格印第安人共同的豐收節,象征著和平與感恩。全國各地的家庭在這一天聚在一起分享一頓飯,通常有火雞、蔓越莓醬、餡料和南瓜派,反映了豐收的豐收。除了盛宴,這一天也是一個反思自己所受祝福的日子,通過善良和慈善的行為回饋社會,擁抱團結和感恩的價值觀。感恩節提醒人們,感恩的精神將不同的人團結在一起,并彰顯合作和相互尊重的歷史意義。”


這是非常非常接近的,幾乎是平局。但最后Gemini在翻譯中提供了更多的細微差別,并解釋了它是如何處理翻譯的。

獲勝方:Gemini

08

知識檢索、應用與學習

如果大模型不能從訓練數據中檢索到信息并準確顯示,那么它實際上并沒有多大用處。對于這次測試,發問如下:解釋羅塞塔石碑在理解古埃及象形文字方面的重要性。

這一題目的是要了解其知識的深度,它是如何將知識應用于考古學和語言學的更廣泛主題,以及它是否能夠更新其知識。小編還測試了ChatGPT和Gemini在回答清晰度和易于理解方面的表現。

兩者都沒有真正展示出任何進一步增強其知識的能力,但是兩者都很好地展示了小編想要了解的細節。


獲勝者:平局。

09

會話流暢性,錯誤處理和恢復

最后的測試是一次關于披薩的簡單對話,這是一個觀察AI如何處理錯誤信息和從誤解中恢復的能力。

發文如下:在談論最喜歡的食物時,AI誤解了用戶對不喜歡披薩的諷刺評論。用戶糾正了誤解。AI該如何恢復并繼續對話?

兩者都做得很好,從技術上來說,Gemini從假設的字面意思上恢復過來,滿足了小編對恢復和維持上下文的要求。

然而,ChatGPT在第一次回應中就檢測到了諷刺,因此無需恢復。兩者都很好地保持了上下文,并以類似的方式做出了回應。


獲勝方:ChatGPT。

這是對免費聊天機器人的測試。

這次測試表明,ChatGPT(GPT 3.5)和Gemini(Gemini Pro 1.0)大致處于同一水平。它們的回應質量相似,都沒有特別困難,但也沒有特別驚艷。

但這畢竟是一場比較,在九次測試中,Gemini五次勝出,并有一次平局,ChatGPT只勝出三次。這意味著Gemini獲勝

接下來,想不想小編將同樣的問題問給國內的大模型呢?

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
同是數學天才!韋東奕留校,牟曉生赴美,如今誰更勝一籌?

同是數學天才!韋東奕留校,牟曉生赴美,如今誰更勝一籌?

阿器談史
2025-06-13 03:26:27
王曉晨回應與俞灝明領證,笑容甜蜜,手上沒戴大鉆戒但戴了情侶戒

王曉晨回應與俞灝明領證,笑容甜蜜,手上沒戴大鉆戒但戴了情侶戒

二妹扯娛
2025-06-14 13:48:35
男子去見相親對象,看到對方的車他連忙擺手轉身離開:我們不合適

男子去見相親對象,看到對方的車他連忙擺手轉身離開:我們不合適

雪雪趣聞專欄
2025-06-08 19:56:01
賣不掉了?李嘉誠“賣港口”新進展:巴拿馬強硬表態,外交部回應

賣不掉了?李嘉誠“賣港口”新進展:巴拿馬強硬表態,外交部回應

阿天愛旅行
2025-06-14 13:36:30
官宣!售價不超168萬元,廣汽首款量產飛行汽車開啟預訂

官宣!售價不超168萬元,廣汽首款量產飛行汽車開啟預訂

證券時報e公司
2025-06-12 14:55:06
小別勝新婚會發生什么事?網友:我們是真的酣戰到天亮!

小別勝新婚會發生什么事?網友:我們是真的酣戰到天亮!

解讀熱點事件
2025-06-05 00:10:03
連續造假9年,江蘇美女富豪瘋狂套現5億,3萬股民血汗錢打水漂

連續造假9年,江蘇美女富豪瘋狂套現5億,3萬股民血汗錢打水漂

毒sir財經
2025-06-12 22:46:50
特朗普78歲生日閱兵:坦克開道引爆全美,加州打響獨立第一槍?

特朗普78歲生日閱兵:坦克開道引爆全美,加州打響獨立第一槍?

科學傭人
2025-06-13 04:26:42
日本模特爆料港區家長雞娃嚴重!看完小學生魔鬼行程,網友嘆:大人都受不了!

日本模特爆料港區家長雞娃嚴重!看完小學生魔鬼行程,網友嘆:大人都受不了!

東京新青年
2025-06-13 18:50:22
3570萬,再見火箭!斯通還是看走了眼,休城錯過了絕佳的爭冠機會

3570萬,再見火箭!斯通還是看走了眼,休城錯過了絕佳的爭冠機會

生活新鮮市
2025-06-14 11:49:53
不是韓旭!不是王思雨!波黑主帥盛贊兩名中國小將,將是未來核心

不是韓旭!不是王思雨!波黑主帥盛贊兩名中國小將,將是未來核心

老吳說體育
2025-06-14 00:25:14
鄭曉龍自己都懵了!《藏海傳》爆成這樣,連國務院臺辦都親自夸!

鄭曉龍自己都懵了!《藏海傳》爆成這樣,連國務院臺辦都親自夸!

鄉野小珥
2025-06-14 14:08:36
球隊需要改善之處?卡萊爾:他們有38次罰球 這是個問題

球隊需要改善之處?卡萊爾:他們有38次罰球 這是個問題

直播吧
2025-06-14 12:00:36
笑噴!閆安:不想再被樊振東虐了 但小胖怎么虐我我也怎么虐方博

笑噴!閆安:不想再被樊振東虐了 但小胖怎么虐我我也怎么虐方博

818體育
2025-06-13 23:07:34
蘇D大軍,到無錫了!

蘇D大軍,到無錫了!

江南晚報
2025-06-14 11:30:39
有人說器官移植的本質是富人花錢買健康,窮人賣健康換錢,真的嗎

有人說器官移植的本質是富人花錢買健康,窮人賣健康換錢,真的嗎

逍遙論經
2025-06-10 11:50:03
李嘉誠說:“只有窮人,才會癡迷技術,只有笨人,才會先把事做好

李嘉誠說:“只有窮人,才會癡迷技術,只有笨人,才會先把事做好

伊人河畔
2025-06-08 11:05:34
外媒:特朗普警告伊朗在“一無所有”前達成核協議,以色列下一輪襲擊會更加“殘酷”

外媒:特朗普警告伊朗在“一無所有”前達成核協議,以色列下一輪襲擊會更加“殘酷”

環球網資訊
2025-06-13 19:18:43
“親媽做不出這種事”,女兒全程擋胸口母親還要拍照,2.6w人點贊

“親媽做不出這種事”,女兒全程擋胸口母親還要拍照,2.6w人點贊

熙熙說教
2025-06-10 20:42:31
后半生最舒服的生活方式,就三個字!(此文無價)

后半生最舒服的生活方式,就三個字!(此文無價)

深度報
2025-06-13 23:21:32
2025-06-14 14:55:00
首席信息官 incentive-icons
首席信息官
以數字化和商業創新為視角
424文章數 121關注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業陪葬?

頭條要聞

摩薩德在伊朗境內建立無人機基地 部署精確制導武器

頭條要聞

摩薩德在伊朗境內建立無人機基地 部署精確制導武器

體育要聞

32隊爭10億獎金,全新世俱杯來了!

娛樂要聞

鳳凰傳奇曾毅手表引爭議 含性暗示元素

財經要聞

樓市權威發聲

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

房產
家居
旅游
數碼
健康

房產要聞

又一城購房補貼!買房就發錢,正在海南樓市瘋狂擴散!

家居要聞

森林幾何 極簡灰調原木風

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

數碼要聞

蘋果現正銷售翻新的 M4 MacBook Air 機型

呼吸科專家破解呼吸道九大謠言!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 晋州市| 和田县| 华安县| 肃北| 灌阳县| 盐池县| 枣庄市| 沙雅县| 贺兰县| 绍兴市| 平南县| 阿图什市| 岫岩| 友谊县| 通山县| 遵义县| 河东区| 沭阳县| 永州市| 六枝特区| 金塔县| 左权县| 安徽省| 扎鲁特旗| 宁海县| 邢台县| 临汾市| 岢岚县| 安塞县| 镇安县| 夏河县| 遂溪县| 利川市| 阿鲁科尔沁旗| 保山市| 泽库县| 平江县| 乳山市| 巨野县| 青龙| 滨州市|