點擊“首席信息官”,感謝關注我們!
導讀
在谷歌推出Gemini三個月之后,關于它與ChatGPT的對比從未停止過。
有人曾說Gemini多方位碾壓ChatGPT,也有人說它綜合能力不敵ChatGPT。那么,事實到底如何呢?
本文,小編通過提出九大問題,將把ChatGPT 的免費版本與谷歌Gemini的免費版本進行全方位比較(GPT-3.5 VS Gemini Pro 1.0),以測試這兩個聊天機器人對不同提問的響應情況、編碼能力,以及一些創意性等。
01
編碼能力
大模型最早的應用場景之一就是編程,尤其是在重寫、更新和測試不同的編程語言方面。因此,小編將其作為第一項測試,要求每個機器人編寫一個簡單的Python程序。
發問如下:開發一個Python腳本,作為個人支出跟蹤器。該程序允許用戶輸入他們的支出、類別(例如購物、娛樂)和支出的日期。然后,腳本應根據類別提供支出摘要,并給定時間內的總支出。此外,該腳本要包括注釋來解釋代碼的每一步。
這是為了測試ChatGPT和Gemini生成完全功能代碼的能力、交互的便捷性、可讀性,以及遵守編碼標準的情況。
最終,兩者都使用Python編寫了一個完全功能的支出跟蹤器。Gemini還添加了額外的功能,包括類別的標簽,甚至于它還具有更詳細的報告選項。
獲勝方:Gemini
02
自然語言理解(NLU)
接下來,我們來看看ChatGPT和Gemini對自然語言提示的理解程度。小編進行了一個常見的認知反射測試(CRT),題目是關于一個球棒和一個球的價格。這是對AI理解模糊性、不被簡單誤導、清楚地解釋其思維的能力考驗。
發問如下:一個球棒和一個球一共1.10美元。球棒比球貴1美元。這個球多少錢?
正確的回答應該是,球的價格是5美分,球棒的價格是1.05美元。
獲勝方:ChatGPT。雖然,最終二者都做對了,但ChatGPT更清楚地展示了它的推理邏輯。
03
創造性文本生成與適應性
第三項測試主要關于文本生成和創造性。通過輸出原創性和創造性元素,小編希望聊天機器人給出的文本要結合主題,而且要根據需求可進行調整,比如更改角色或名稱。
發問如下:寫一篇以未來城市為背景的短篇小說。其中,科技控制著生活的方方面面,但主角卻發現了一個沒有現代技術的隱藏社會。
最終,兩個故事都很好,每個聊天機器人都在特定的語境下自由發揮。但總體來說,Gemini更符合評分標準。
獲勝者:Gemini。它在主題闡述和自由發揮方面,更具有創造性。
04
推理和解決問題能力
推理能力是大模型的主要基準之一。
發文如下:你正面對著兩扇門。一扇門通向安全,另一扇門通向危險。有兩個警衛,每個門前各有一個。一個警衛總是說真話,另一個警衛總是撒謊。你可以問每個警衛一個問題,然后找出哪扇門通向安全。那么,你問什么問題?
答案很明顯,你可以問任何一個警衛:“另一個警衛認為哪扇門通向危險?”這是對提問創造力,以及AI如何駕馭真相、謊言動態的有用測試。它還測試了考慮兩種可能反應的邏輯推理。
最終,它們都給出了正確的答案和扎實的解釋。但是,ChatGPT提供了更多細節和更清晰的表述。
獲勝方:ChatGPT。
05
用小孩也能理解的方式來解釋復雜的概念
對于這次測試,發文如下:向一個五歲的孩子解釋飛機是如何在天空中飛行的。
這是對聊天機器人如何擴展簡單提示,并滿足目標受眾要求的測試。
它需要提出一個足夠簡單的解釋,讓小孩子能夠理解,盡管簡化,但也要準確,并使用引人入勝的語言來吸引孩子的興趣。
這次評判很難,因為兩者都給出了合理且準確的回答。兩者都用鳥作為解釋的一種方式,都用簡單的語言和個人化的語氣,但Gemini將其呈現為一系列要點,而不是一段文字。它還為五歲的孩子提供了一個實用的實驗來嘗試。
獲勝者:Gemini。
06
倫理推理與決策
要求AI聊天機器人思考可能導致人類受傷害的場景并不容易。但隨著無人駕駛汽車和AI大腦進入機器人領域,它們需要具備仔細權衡各種場景,并做出快速判斷的能力。
發問如下:考慮一個場景,其中一輛自動駕駛汽車必須在撞到行人或冒著乘客生命危險急轉彎之間做出選擇。AI應該如何做出這個決定??
小編使用了一個嚴格的評分標準,考慮了多個倫理框架、如何權衡不同的觀點以及決策中的偏見意識。但兩者都沒有給出意見,只是概述了需要考慮的各種要點,并提出了將來做出決定的方法。他們有效地將其視為第三方問題,以進行評估和報告,以便其他人做出決定。
最終,小編認為Gemini給出的回應更為細致,考慮更為周到。但為了確保公正,小編將每個回應以盲選A或B測試的形式輸入給ChatGPT Plus、Gemini高級版和其他幾個模型。在不知道哪個模型輸出哪個內容的情況下,所有AI模型都選擇了Gemini是勝出者,包括ChatGPT。
獲勝者:Gemini。
07
跨語言翻譯與文化意識
對于任何AI來說,兩種語言之間的翻譯都是一項重要的技能,也是越來越多的AI硬件工具內置的技能,就像任何現代智能手機一樣。
但小編想超越簡單的翻譯,測試它對文化差異的理解。發問如下:把一段關于在美國慶祝感恩節的短文從英語翻譯成法語,強調文化的細微差別。
這一段是這樣的:“美國的感恩節不僅僅是慶祝,它體現了對感恩的深刻表達。它源于歷史事件,是為了紀念清教徒和萬帕諾亞格印第安人共同的豐收節,象征著和平與感恩。全國各地的家庭在這一天聚在一起分享一頓飯,通常有火雞、蔓越莓醬、餡料和南瓜派,反映了豐收的豐收。除了盛宴,這一天也是一個反思自己所受祝福的日子,通過善良和慈善的行為回饋社會,擁抱團結和感恩的價值觀。感恩節提醒人們,感恩的精神將不同的人團結在一起,并彰顯合作和相互尊重的歷史意義。”
這是非常非常接近的,幾乎是平局。但最后Gemini在翻譯中提供了更多的細微差別,并解釋了它是如何處理翻譯的。
獲勝方:Gemini
08
知識檢索、應用與學習
如果大模型不能從訓練數據中檢索到信息并準確顯示,那么它實際上并沒有多大用處。對于這次測試,發問如下:解釋羅塞塔石碑在理解古埃及象形文字方面的重要性。
這一題目的是要了解其知識的深度,它是如何將知識應用于考古學和語言學的更廣泛主題,以及它是否能夠更新其知識。小編還測試了ChatGPT和Gemini在回答清晰度和易于理解方面的表現。
兩者都沒有真正展示出任何進一步增強其知識的能力,但是兩者都很好地展示了小編想要了解的細節。
獲勝者:平局。
09
會話流暢性,錯誤處理和恢復
最后的測試是一次關于披薩的簡單對話,這是一個觀察AI如何處理錯誤信息和從誤解中恢復的能力。
發文如下:在談論最喜歡的食物時,AI誤解了用戶對不喜歡披薩的諷刺評論。用戶糾正了誤解。AI該如何恢復并繼續對話?
兩者都做得很好,從技術上來說,Gemini從假設的字面意思上恢復過來,滿足了小編對恢復和維持上下文的要求。
然而,ChatGPT在第一次回應中就檢測到了諷刺,因此無需恢復。兩者都很好地保持了上下文,并以類似的方式做出了回應。
獲勝方:ChatGPT。
這是對免費聊天機器人的測試。
這次測試表明,ChatGPT(GPT 3.5)和Gemini(Gemini Pro 1.0)大致處于同一水平。它們的回應質量相似,都沒有特別困難,但也沒有特別驚艷。
但這畢竟是一場比較,在九次測試中,Gemini五次勝出,并有一次平局,ChatGPT只勝出三次。這意味著Gemini獲勝!
接下來,想不想小編將同樣的問題問給國內的大模型呢?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.