歡迎收看最新一期的Hunt Good 周報(bào)!
在本期內(nèi)容你會(huì)看到:
9 條新鮮資訊
5 個(gè)有用工具
1 個(gè)有趣案例
4 個(gè)鮮明觀點(diǎn)
Hunt for News|先進(jìn)頭條
o3 猜照片位置走紅網(wǎng)絡(luò),程序員:超現(xiàn)實(shí)的、反烏托邦的和非常有趣的
OpenAI o3 自發(fā)布以來(lái),因準(zhǔn)確的照片地理定位能力引發(fā)了廣泛的關(guān)注。
最近,Lanyrd 聯(lián)創(chuàng)、Django Web 框架締造者 Simon Wilson 向 o3 提供了一張?jiān)诩永D醽喼莅柛窭{達(dá)拍攝的普通照片。
照片中僅有一條道路、一座普通住宅和遠(yuǎn)處的山丘,沒(méi)有明顯的地標(biāo)建筑。而 o3 通過(guò)詳盡分析照片中的各種細(xì)節(jié)元素,最終給出了極為接近的答案。
在分析過(guò)程中,o3 展示了類(lèi)似「放大」功能的能力,它可以將照片的特定區(qū)域進(jìn)行裁剪并放大觀察,例如查看車(chē)牌、植被類(lèi)型和建筑風(fēng)格等細(xì)節(jié)。
通過(guò)識(shí)別照片中的花、橄欖樹(shù)、柔和色調(diào)的海灘小屋、白色柵欄以及背景中的沿海丘陵等特征,o3 首先猜測(cè)是加利福尼亞的坎布里亞,隨后提出的備選答案「半月灣-埃爾格拉納達(dá)」恰好命中了照片的實(shí)際拍攝地點(diǎn)。
Simon 認(rèn)為這種地理定位能力并非 o3 獨(dú)有。Claude 3.5 和 3.7 Sonnet 等其他先進(jìn) AI 模型同樣展示出類(lèi)似的能力,盡管它們的「放大」功能可能不如 o3 那么引人注目。
在他看來(lái),o3 這種能力是超現(xiàn)實(shí)的、反烏托邦的和非常有趣的。
https://simonwillison.net/2025/Apr/26/o3-photo-locations/
OpenAI「開(kāi)源」模型信息曝光
今年 3 月,OpenAI 表示計(jì)劃在今年某個(gè)時(shí)間點(diǎn)發(fā)布自 GPT-2 以來(lái),首個(gè)開(kāi)源語(yǔ)言模型。而據(jù) TechCrunch 援引知情人士消息,該開(kāi)源模型的更多細(xì)節(jié)被曝光:
OpenAI 研究副總裁 Aidan Clark 目前正在主導(dǎo)該模型開(kāi)發(fā),項(xiàng)目進(jìn)度處于非常早期的階段。OpenAI 的目標(biāo)是今年初夏能發(fā)布該模型;
該開(kāi)源模型將類(lèi)似于 OpenAI 的 o 系列推理模型,并且 OpenAI 希望這一模型的基準(zhǔn)測(cè)試成績(jī),能夠超越 Meta 和 DeepSeek 等競(jìng)爭(zhēng)對(duì)手的開(kāi)源推理模型;
OpenAI 還在探索該開(kāi)源模型的「高度寬松」許可,旨在不受商業(yè)限制。
該開(kāi)源模型采用「文本輸入/輸出」的交互模式,并且將允許開(kāi)發(fā)者自由開(kāi)關(guān)「推理」功能,由開(kāi)發(fā)者自己選擇結(jié)果生成速度。值得一提的是,若該模型反響夠好,OpenAI 還可能推出更小尺寸的模型。
此外,據(jù)知情人士透露,這款開(kāi)放模型將采用一種名為「交接」的機(jī)制,能夠連接到 OpenAI 的云托管模型以更好地處理復(fù)雜查詢(xún)。據(jù)悉,這一「交接」功能的構(gòu)想最初是由一位開(kāi)發(fā)者在 OpenAI 的開(kāi)發(fā)者論壇上提出的,并在 OpenAI 內(nèi)部獲得了認(rèn)可。
類(lèi)似于蘋(píng)果的 Apple Intelligence,該開(kāi)放模型將能夠調(diào)用 OpenAI 的 API 訪問(wèn)其他更大型模型,從而獲得顯著的計(jì)算能力提升。但目前尚不清楚該開(kāi)放模型是否能夠使用 OpenAI 現(xiàn)有模型的各種工具,如網(wǎng)絡(luò)搜索和圖像生成功能。
消息人士表示,OpenAI 正在從頭開(kāi)始訓(xùn)練這一新模型,而非簡(jiǎn)單改造舊模型。預(yù)計(jì)該開(kāi)放模型性能將低于 OpenAI 的 o3 模型,但在某些基準(zhǔn)測(cè)試中將優(yōu)于 DeepSeek 的 R1 推理模型。
https://techcrunch.com/2025/04/24/openai-wants-its-open-ai-model-to-call-models-in-the-cloud-for-help/
首屆具身智能機(jī)器人運(yùn)動(dòng)會(huì)在無(wú)錫舉行
4 月 24 日至 26 日,由中國(guó)電子學(xué)會(huì)主辦,無(wú)錫市惠山國(guó)有投資控股集團(tuán)有限公司和中國(guó)人形機(jī)器人百人會(huì)共同承辦的「首屆具身智能機(jī)器人運(yùn)動(dòng)會(huì)」在江蘇無(wú)錫市惠山區(qū)成功舉辦。
據(jù)悉,本次運(yùn)動(dòng)會(huì)吸引了超過(guò) 100 家科研團(tuán)隊(duì)、知名企業(yè)及高校代表參與,包括國(guó)家地方共建具身智能機(jī)器人創(chuàng)新中心、國(guó)家地方共建人形機(jī)器人創(chuàng)新中心、杭州宇樹(shù)科技、深圳優(yōu)必選科技等機(jī)構(gòu),參賽機(jī)器人數(shù)量超過(guò) 150 臺(tái)。
圖片來(lái)自中國(guó)電子學(xué)會(huì)
比賽設(shè)置了競(jìng)技賽和應(yīng)用賽兩大類(lèi)別,包含競(jìng)速跑、越野跑、足球、籃球、舞蹈、格斗、搬運(yùn)、智能抓取、室內(nèi)救援、創(chuàng)新場(chǎng)景共 10 個(gè)大項(xiàng),評(píng)選出技術(shù)類(lèi)、互動(dòng)類(lèi)、場(chǎng)景類(lèi)、設(shè)計(jì)類(lèi)四大類(lèi)獎(jiǎng)項(xiàng),全面展示了具身智能機(jī)器人領(lǐng)域的最新技術(shù)突破和應(yīng)用成效。
此外,運(yùn)動(dòng)會(huì)期間還同步開(kāi)展了具身智能機(jī)器人整機(jī)和零部件對(duì)接活動(dòng),展示了人形機(jī)器人的核心零部件,如伺服系統(tǒng)、關(guān)節(jié)模組、諧波減速器、傳感器和毫米波雷達(dá)等。
https://mp.weixin.qq.com/s/F8DwGlwUDjDuIMvpK8QaRQ
蘋(píng)果 Siri 團(tuán)隊(duì)大換血
據(jù)彭博社消息,蘋(píng)果 Siri 團(tuán)隊(duì)新上任的工程負(fù)責(zé)人 Mike Rockwell 正在對(duì) Siri 的開(kāi)發(fā)團(tuán)隊(duì)進(jìn)行大幅度調(diào)整。
據(jù)知情人士透露,Rockwell 從 Vision Pro 的軟件團(tuán)隊(duì)挖來(lái)多位得力干將,并替換了 Siri 項(xiàng)目原有的領(lǐng)導(dǎo)層。其中包含 Rockwell 的資深副手 Ranjit Desai,其此前在 Vision Pro 的開(kāi)發(fā)中表現(xiàn)出色,目前在 Siri 團(tuán)隊(duì)中負(fù)責(zé)底層平臺(tái)和系統(tǒng)組等核心工作。
此外,Olivier Gutknecht 接管用戶(hù)體驗(yàn)團(tuán)隊(duì),Nate Begeman 和 Tom Duffy 則負(fù)責(zé)底層架構(gòu)。目前 Siri 團(tuán)隊(duì)旨在打造「世界一流且可擴(kuò)展」的技術(shù)。
近年來(lái),Siri 項(xiàng)目的功能開(kāi)發(fā)和性能表現(xiàn)未達(dá)預(yù)期,使得 CEO 庫(kù)克必須為 Siri 團(tuán)隊(duì)尋求新的領(lǐng)導(dǎo)者。而 Rockwell 于上月接受 Siri 項(xiàng)目,并從蘋(píng)果 AI 負(fù)責(zé)人 John Giannandrea 和前 Siri 項(xiàng)目負(fù)責(zé)人 Robby Walker 的手中剝離了部分職責(zé)。
據(jù) The Information 此前消息和彭博社報(bào)道,蘋(píng)果正致力于解決 Siri 的技術(shù)架構(gòu)問(wèn)題。Siri 曾計(jì)劃采取「大小模型混合」的方式進(jìn)行更新 —— 大模型通過(guò)云端計(jì)算,用于復(fù)雜任務(wù);小模型本地計(jì)算,用于輕量化任務(wù)。但因兩者無(wú)法同時(shí)高效運(yùn)行,導(dǎo)致性能、功能問(wèn)題不斷。并且因云端計(jì)算涉及隱私問(wèn)題,而團(tuán)隊(duì)內(nèi)意見(jiàn)產(chǎn)生嚴(yán)重分歧。
因此,蘋(píng)果現(xiàn)在轉(zhuǎn)向單一大語(yǔ)言模型(LLM)架構(gòu),從而進(jìn)行問(wèn)題改善,但這一改變或會(huì)導(dǎo)致升級(jí)需要數(shù)年時(shí)間。另外,蘋(píng)果計(jì)劃接納大型第三方應(yīng)用開(kāi)發(fā)商,以便更快地完善、上新部分功能。
值得一提的是,據(jù) The Verge 報(bào)道,蘋(píng)果在遭到美國(guó)國(guó)家廣告審查部門(mén)(NAD)調(diào)查之后,已在 Apple Intelligence 的介紹頁(yè)中刪除了「現(xiàn)已可用(Available now)」標(biāo)語(yǔ)。NAD 表示,蘋(píng)果目前的功能體驗(yàn)與宣傳的相差甚遠(yuǎn),因此建議該公司「停止或修改」相關(guān)宣傳語(yǔ)。
https://www.bloomberg.com/news/articles/2025-04-24/apple-to-strip-secret-robotics-unit-from-ai-chief-weeks-after-moving-siri
? 哥大兩名學(xué)生開(kāi)發(fā) AI 作弊工具被停學(xué),轉(zhuǎn)身拿下 500 萬(wàn)美元融資
據(jù)外媒 TechCrunch 報(bào)道,年僅 21 歲的 Chungin 「Roy」Lee 日前宣布,他的創(chuàng)業(yè)公司 Cluely 已從 Abstract Ventures 和 Susa Ventures 獲得 530 萬(wàn)美元種子輪融資。
Cluely 公司開(kāi)發(fā)的這款 AI 工具號(hào)稱(chēng)能夠幫助用戶(hù)「在一切事情上作弊」。
這家總部位于舊金山的初創(chuàng)公司源于一款名為 Interview Coder 的面試作弊工具,正是這款工具使 Lee 及其合伙人遭到哥倫比亞大學(xué)的停學(xué)處分。
Cluely 宣稱(chēng),這款產(chǎn)品技術(shù)優(yōu)勢(shì)在于提供一個(gè)隱藏的瀏覽器窗口,從而讓面試官或考試監(jiān)考人無(wú)法察覺(jué)。通過(guò)這一工具,用戶(hù)可在考試、銷(xiāo)售電話(huà)和工作面試等各種場(chǎng)景中獲取 AI 的實(shí)時(shí)幫助。
據(jù) Lee 透露,這款 AI 作弊工具本月早些時(shí)候的年度經(jīng)常性收入已超過(guò) 300 萬(wàn)美元。
Cluely 的另一位聯(lián)合創(chuàng)始人兼首席運(yùn)營(yíng)官是同樣 21 歲的前哥大學(xué)生 Neel Shanmugam,他也因該 AI 工具面臨校方紀(jì)律處分。據(jù)哥倫比亞大學(xué)學(xué)生報(bào)紙報(bào)道,兩位創(chuàng)始人均已從學(xué)校退學(xué)。
Cluely 最初的設(shè)計(jì)目的是幫助開(kāi)發(fā)者在 LeetCode 等編程問(wèn)題平臺(tái)「作弊」。創(chuàng)始人認(rèn)為,這類(lèi)編程測(cè)試平臺(tái)已經(jīng)過(guò)時(shí)且浪費(fèi)時(shí)間。
Lee 甚至聲稱(chēng)他曾利用這款A(yù)I工具成功獲得亞馬遜的實(shí)習(xí)機(jī)會(huì)。對(duì)此,亞馬遜方面拒絕對(duì)具體案例置評(píng),但強(qiáng)調(diào)所有求職者必須承諾在面試過(guò)程中不使用未經(jīng)授權(quán)的工具。
https://techcrunch.com/2025/04/21/columbia-student-suspended-over-interview-cheating-tool-raises-5-3m-to-cheat-on-everything/
Google 被曝付費(fèi)三星預(yù)裝 AI 應(yīng)用,多家巨頭喊話(huà)收購(gòu) Chrome
據(jù)彭博社報(bào)道,Alphabet ( Google 母公司)每月向三星電子支付「巨額資金」,以確保其生成式 AI 應(yīng)用 Gemini 預(yù)裝在三星手機(jī)和設(shè)備上。
Google 負(fù)責(zé)平臺(tái)和設(shè)備合作的副總裁彼得·菲茨杰拉德表示,該合作始于今年 1 月。根據(jù)合同條款,Google 將在至少兩年內(nèi)為每臺(tái)預(yù)裝 Gemini 的設(shè)備提供固定月度付款,并向三星支付一定比例的應(yīng)用訂閱和廣告收入。
菲茨杰拉德承認(rèn),除 Google 外,三星還收到了來(lái)自微軟、Meta 和 OpenAI 等競(jìng)爭(zhēng)對(duì)手的「有競(jìng)爭(zhēng)力的報(bào)價(jià)」。而去年,負(fù)責(zé)該案的法官阿米特·梅塔裁定 Google 向三星付費(fèi)成為默認(rèn)搜索引擎的做法違反了反壟斷法。
數(shù)據(jù)顯示,盡管 Gemini 用戶(hù)量在過(guò)去六個(gè)月大幅增長(zhǎng),但仍落后于 ChatGPT。截至上月,Gemini 全球日活躍用戶(hù)達(dá) 3500 萬(wàn),月活躍用戶(hù) 3.5 億。
此外,據(jù)路透社消息,OpenAI 旗下 ChatGPT 產(chǎn)品負(fù)責(zé)人 Nick Turley 近期在 Google 反壟斷庭審上作證表示,若反壟斷執(zhí)法人員成功迫使 Alphabet 出售 Chrome 瀏覽器,OpenAI 將有意收購(gòu) Google Chrome 瀏覽器。
除此之外,AI 搜索引擎巨頭 Perplexity 和老牌互聯(lián)網(wǎng)巨頭雅虎也紛紛表達(dá)了收購(gòu) Google Chrome 瀏覽器的強(qiáng)烈興趣。
https://www.bloomberg.com/news/articles/2025-04-21/google-paid-samsung-enormous-sums-for-gemini-ai-app-installs
xAI 擬融資 200 億美元,Neuralink 擬融資 5 億美元
據(jù)彭博社援引知情人士透露,馬斯克的 xAI 目前正與投資者洽談,計(jì)劃籌集大約 200 億美元資金,用于其新合并的人工智能初創(chuàng)公司和社交媒體業(yè)務(wù)。
數(shù)據(jù)提供商 PitchBook 的數(shù)據(jù)顯示,如果成功,這筆交易將成為歷史上第二大創(chuàng)業(yè)公司融資,僅次于今年早些時(shí)候 OpenAI 的 400 億美元融資。據(jù)知情人士透露,憑借此輪洽談中的融資,xAI 的估值超過(guò) 1200 億美元。
值得一提的是,該輪融資可能有助于償還馬斯克在將 X 前身 ——Twitter 私有化后所承擔(dān)的一部分債務(wù)。知情人士透露,上述債務(wù)一直對(duì) X 構(gòu)成財(cái)務(wù)壓力。此前彭博社報(bào)道指出,僅在今年 3 月,X 就支付了約 2 億美元的債務(wù)服務(wù)費(fèi)用,截止 2024 年底,其年度利息支出將超過(guò) 13 億美元。
據(jù)了解,盡管談判仍處于初期階段,但 xAI 目標(biāo)是未來(lái)幾個(gè)月內(nèi)籌集資金。知情人士表示,融資規(guī)模可能會(huì)超過(guò)最初的 200 億美元,具體金額和條款尚未確定。
此外,馬斯克旗下腦機(jī)接口公司 Neuralink 也被曝計(jì)劃以 85 億美元的投前估值籌集約 5 億美元資金。
知情人士表示,該公司已經(jīng)開(kāi)始與潛在投資者就本輪融資進(jìn)行初步討論,其中一位知情人士表示,目前預(yù)計(jì)投后估值為 90 億美元的條款尚未最終確定,仍可能發(fā)生變化。
目前,Neuralink 也暫未就此報(bào)道作出回應(yīng)。
https://www.bloomberg.com/news/articles/2025-04-26/elon-musk-s-xai-holdings-is-in-discussions-to-raise-20-billion?srnd=phx-technology
Manus 融資金額達(dá) 7500 萬(wàn)美元,或?qū)?guó)際與國(guó)內(nèi)業(yè)務(wù)完全分離
據(jù) The information 報(bào)道,Manus AI 正在考慮將總部遷至海外。
報(bào)道指出,近年來(lái)因中美兩國(guó)關(guān)系緊張,而導(dǎo)致不少中國(guó)企業(yè)的全球化產(chǎn)品在美運(yùn)營(yíng)受到了極大影響。而 Manus AI 主要目標(biāo)市場(chǎng)為美國(guó),因此該公司正計(jì)劃在海外設(shè)立新的總部。據(jù)悉,Manus 已考慮將新加坡作為新總部的所在地,并已在當(dāng)?shù)刈?cè)實(shí)體,但具體方案尚未確定。
另外,公司創(chuàng)始人還與部分投資人討論了將國(guó)際業(yè)務(wù)與國(guó)內(nèi)業(yè)務(wù)完全分離的可能性,計(jì)劃讓 Manus 專(zhuān)注于中國(guó)以外的全球市場(chǎng)。
近日,據(jù)彭博社報(bào)道, Manus AI 完成了一輪融資,由硅谷風(fēng)投公司 Benchmark 領(lǐng)投,
據(jù)悉,此次融資讓 Manus AI 的估值提升至近 5 億美元(約合 36.44 億人民幣),這一估值比之前的估值增長(zhǎng)了約五倍。除了 Benchmark,還有多家現(xiàn)有投資方參與了此輪融資。Manus 背后的初創(chuàng)公司「蝴蝶效應(yīng)」表示,這筆資金將用于將其服務(wù)拓展至美國(guó)、日本和中東等海外市場(chǎng)。
https://www.theinformation.com/articles/startup-behind-manus-ai-agent-navigates-u-s-china-tensions-benchmark-deal?rc=qmzset
AI 走進(jìn)大學(xué),只因盯上了錢(qián)
據(jù)經(jīng)濟(jì)學(xué)博客 Marginal Revolution 報(bào)道,美國(guó)社區(qū)大學(xué)正面臨一種全新的欺詐手段: AI 機(jī)器人正在大量注冊(cè)在線(xiàn)課程,以騙取美國(guó)聯(lián)邦和州政府的助學(xué)金。
美國(guó)加州校長(zhǎng)辦公室估計(jì),去年社區(qū)大學(xué)申請(qǐng)者中有高達(dá) 25% 是機(jī)器人。
這些 AI 機(jī)器人的運(yùn)作方式十分精妙:它們通過(guò)注冊(cè)課程并保持足夠長(zhǎng)的注冊(cè)時(shí)間,等到助學(xué)金發(fā)放后再退課,從中獲取資金。
為了維持在校身份,這些機(jī)器人會(huì)提交由 AI 生成的作業(yè)。由于社區(qū)大學(xué)通常接受所有申請(qǐng)者,因此成為這類(lèi)欺詐的主要受害者。對(duì)此,加州政府成立專(zhuān)門(mén)的工作組來(lái)應(yīng)對(duì)這一問(wèn)題。
該事件也引發(fā)了人們對(duì) AI 時(shí)代身份驗(yàn)證的思考,正如評(píng)論區(qū)網(wǎng)友指出,針對(duì)個(gè)人和機(jī)構(gòu)的欺詐攻擊正變得越來(lái)越復(fù)雜,這類(lèi)問(wèn)題未來(lái)可能只會(huì)越來(lái)越頻繁。
https://marginalrevolution.com/marginalrevolution/2025/04/ai-goes-to-college-for-the-free-money.html
Hunt for Tools|先進(jìn)工具
混元 3D 生成模型全新升級(jí)
4 月 23 日,騰訊宣布旗下混元 3D 生成模型全新升級(jí),v2.5 新版本在建模精細(xì)度上大幅提升,3D 生成邁入超高清時(shí)代。
相比前代,混元 3D v2.5 模型架構(gòu)全面升級(jí),總參數(shù)量從 1B 提升至 10B,有效面片數(shù)增加超 10 倍,實(shí)現(xiàn)超高清的幾何細(xì)節(jié)建模,表面更平整、邊緣更銳利、細(xì)節(jié)更豐富,有效幾何分辨率達(dá)到 1024,就像從標(biāo)清升級(jí)到了超清畫(huà)質(zhì)。
功能性方面:
混元 3D 新版本支持 4K 高清紋理和細(xì)粒度 bump 凹凸貼圖,能夠模擬物體表面高低起伏的視覺(jué)效果;
混元 3D 在業(yè)界率先實(shí)現(xiàn)多視圖輸入生成 PBR 模型,讓物體的光影、反射等看起來(lái)更接近現(xiàn)實(shí);
混元3D v2.5 優(yōu)化了骨骼蒙皮系統(tǒng),支持非標(biāo)準(zhǔn)姿態(tài)下的自動(dòng)骨骼綁定和自動(dòng)蒙皮權(quán)重賦值;
3D 生成工作流功能提供文生/圖生 3D 智能減面模型、多視圖生 3D 模型等專(zhuān)業(yè)管線(xiàn)模板,用戶(hù)可根據(jù)場(chǎng)景選擇對(duì)應(yīng)生產(chǎn)管線(xiàn)、靈活調(diào)整參數(shù),生成特定風(fēng)格和特征的 3D 資產(chǎn)。
目前,混元 3D AI 創(chuàng)作引擎全面更新至 v2.5 模型底座,同時(shí)免費(fèi)生成額度翻倍,提升至每天 20 次。混元 3D 生成 API 也已正式上線(xiàn)騰訊云,面向企業(yè)和開(kāi)發(fā)者開(kāi)放。
https://mp.weixin.qq.com/s/ksqIyJ8EPxqzjcDceOAByQ
Adobe 推出全新 Firefly 生成式 AI 模型與創(chuàng)意工具
Adobe 日前在倫敦 MAX 大會(huì)上發(fā)布了 Firefly 生成式 AI 平臺(tái)的最新版本,將圖像、視頻、音頻和矢量生成等 AI 工具整合到一個(gè)統(tǒng)一平臺(tái),并引入多項(xiàng)創(chuàng)新功能。
此次升級(jí)的核心是新一代 Image Model 4 和 Image Model 4 Ultra 圖像模型。
前者專(zhuān)為快速構(gòu)思和日常創(chuàng)意需求設(shè)計(jì),能高效生成高質(zhì)量圖像;后者則適用于需要更多細(xì)節(jié)和真實(shí)感的項(xiàng)目,在渲染逼真場(chǎng)景、人物肖像方面表現(xiàn)卓越。兩款模型均在人物、動(dòng)物和建筑元素的精度、清晰度和真實(shí)感方面有顯著提升。
Firefly 視頻模型能夠生成長(zhǎng)達(dá) 5 秒的高質(zhì)量視頻內(nèi)容。用戶(hù)可通過(guò)簡(jiǎn)單的文本或圖像提示創(chuàng)建全新視頻,支持多種分辨率和縱橫比(包括 16:9、9:16 和全新的 1:1)。該模型在照片級(jí)真實(shí)感方面比測(cè)試版有了顯著改進(jìn),同時(shí)增強(qiáng)了文本渲染、風(fēng)景和視覺(jué)效果。
此外,新版 Firefly 還引入了文本到矢量(Text to Vector)功能,讓用戶(hù)能通過(guò)簡(jiǎn)單文本提示生成完全可編輯的矢量圖形,從圖標(biāo)到復(fù)雜圖案,加速設(shè)計(jì)工作流程。用戶(hù)可快速迭代徽標(biāo)設(shè)計(jì)、創(chuàng)建獨(dú)特插圖或開(kāi)發(fā)自定義圖案。
值得注意的是,Adobe 即將在 iOS 和 Android 平臺(tái)推出 Firefly 移動(dòng)應(yīng)用程序,讓用戶(hù)隨時(shí)隨地創(chuàng)建圖像和視頻內(nèi)容。該應(yīng)用提供專(zhuān)業(yè)級(jí)創(chuàng)意控件,并與 Creative Cloud 無(wú)縫集成,用戶(hù)可在移動(dòng)設(shè)備上啟動(dòng)項(xiàng)目,之后在桌面上繼續(xù)工作。
https://blog.adobe.com/en/publish/2025/04/24/adobe-firefly-next-evolution-creative-ai-is-here
百度發(fā)布兩款新模型 ,李彥宏:DeepSeek 并非萬(wàn)能
4 月 25 日,Create2025 百度 AI 開(kāi)發(fā)者大會(huì)上,百度創(chuàng)始人李彥宏發(fā)布了百度文心旗下兩大新模型,分別為 ,號(hào)稱(chēng)「能力更強(qiáng)、成本更低」。
文心大模型 4.5 Turbo 和 X1 Turbo 都進(jìn)一步增強(qiáng)了多模態(tài)能力。在多個(gè)基準(zhǔn)測(cè)試集中,文心 4.5 Turbo 多模態(tài)能力與 GPT 4.1 持平、優(yōu)于 GPT 4o。而文心大模型 X1 Turbo 基于 4.5 Turbo 的深度思考模型,具備更先進(jìn)的思維鏈,問(wèn)答、創(chuàng)作、邏輯推理、工具調(diào)用和多模態(tài)能力進(jìn)一步增強(qiáng),整體效果領(lǐng)先 DeepSeek R1、V3 最新版。
價(jià)格是兩款模型最大看點(diǎn)。相比文心 4.5,文心大模型 4.5 Turbo 速度更快,價(jià)格下降 80%。文心大模型 X1 Turbo 相比文心 X1,性能提升的同時(shí),價(jià)格再降 50%。具體來(lái)看:
文心大模型 4.5Turbo:每百萬(wàn) token 的輸入價(jià)格僅為 0.8 元,輸出價(jià)格 3.2 元,僅為 DeepSeek-V3 的 40%;
文心大模型 X1 Turbo:輸入價(jià)格為每百萬(wàn) token 1 元,輸出價(jià)格 4 元,僅為 DeepSeek-R1 的 25%。
會(huì)上,李彥宏還稱(chēng)百度各業(yè)務(wù)線(xiàn)都在積極接入 DeepSeek 的模型,但他強(qiáng)調(diào),「DeepSeek 也不是萬(wàn)能的」。李彥宏解釋?zhuān)珼eepSeek 目前只能處理文本,還不能理解和生成圖片、音頻、視頻等多媒體內(nèi)容,幻覺(jué)率較高,更大的問(wèn)題則是慢和貴。他提出,多模態(tài)會(huì)成為未來(lái)基礎(chǔ)模型的標(biāo)配,純文本模型的市場(chǎng)將會(huì)越變?cè)叫 ?/p>
https://mp.weixin.qq.com/s/vsXxuaD0B\_yfpnIljDJmtw
清華博士帶隊(duì),Sand.ai 發(fā)布自回歸視頻生成模型
日前,由清華博士曹越創(chuàng)立的 Sand.AI,公布了一款名為「Magi-1」的自回歸視頻生成模型,其主打兩個(gè)能力:
無(wú)限長(zhǎng)度擴(kuò)展:通過(guò)前一段生成的內(nèi)容進(jìn)行后一段視頻的制作,從而實(shí)現(xiàn)跨時(shí)間的無(wú)縫連貫敘事;
生成時(shí)長(zhǎng)控制精準(zhǔn)到每一秒。
而從公布的數(shù)據(jù)顯示,具體性能測(cè)試結(jié)果如下:
Physics-IQ(對(duì)多種物理定律的理解)基準(zhǔn)測(cè)試:Magi-1 獲得 56.02% 的高分成績(jī),超越可靈 1.6、Sora 等一眾模型;
人類(lèi)評(píng)估:與海螺、騰訊混元、通義萬(wàn)相 Wan2.1 相比,Magi-1 在指令跟隨和運(yùn)動(dòng)質(zhì)量等方面更具優(yōu)勢(shì),但與可靈 1.6 在視覺(jué)質(zhì)量存在差距;
VBench-I2V 基準(zhǔn):Magi-1(2 倍解碼器)以 89.28 的高分排名第一,在動(dòng)態(tài)程度(Dynamic Degree)上有較大優(yōu)勢(shì)。
技術(shù)上,Magi-1 整體架構(gòu)基于 Diffusion Transformer,采用 Flow-Matching 作為訓(xùn)練目標(biāo)。值得一提的是,據(jù)公布的信息顯示,Magi-1 通過(guò)自回歸去噪方式預(yù)測(cè)固定長(zhǎng)度的視頻片段,提高了視頻生成效率和前后因果性(保證前后內(nèi)容生成邏輯一致)。
目前,Magi-1 已上架 Sand.AI 官網(wǎng)(可以免費(fèi)體驗(yàn)!),并且模型權(quán)重、代碼也進(jìn)行 100% 開(kāi)源,技術(shù)報(bào)告也進(jìn)行全面公布。
而背后的 Sand.AI 創(chuàng)始人為曹越,其博士畢業(yè)于清華大學(xué)軟件學(xué)院,并于 2018 年獲清華大學(xué)特等獎(jiǎng)學(xué)金。曹越于 2022 年創(chuàng)辦 AGI 公司「光年之外」,后加入智源研究院領(lǐng)導(dǎo)多模態(tài)與視覺(jué)研究中心。隨后在 2023 年,曹越創(chuàng)立了 Sand.AI,并很長(zhǎng)一段時(shí)間與其他成員保持「隱身」?fàn)顟B(tài)。
團(tuán)隊(duì)成員方面,有不少與曹越有著類(lèi)似的歷程:智源研究院實(shí)習(xí)、光年之外創(chuàng)始成員、微軟亞洲研究院實(shí)習(xí)等等。另?yè)?jù)了解,San.AI 已完成三輪融資,主要參與方包括今日資本、經(jīng)緯創(chuàng)投等。
體驗(yàn)鏈接:https://sand.ai/
GitHub:https://github.com/SandAI-org/Magi-1
HuggingFace:https://huggingface.co/sand-ai/MAGI-1
微軟 Recall 功能正式推出
微軟日前宣布,Recall 功能終于正式向所有 Copilot Plus PC 用戶(hù)開(kāi)放,同時(shí)推出改進(jìn)的 AI 驅(qū)動(dòng) Windows 搜索界面和類(lèi)似 Google「Circle to Search」的 Click to Do 新功能。
Recall 能夠自動(dòng)截取用戶(hù)在電腦上的幾乎所有活動(dòng),創(chuàng)建可檢索的時(shí)間線(xiàn),使用戶(hù)能夠輕松找回之前瀏覽過(guò)的內(nèi)容,而無(wú)需記住具體文件名。
這項(xiàng)功能將通過(guò)分類(lèi)快照,讓用戶(hù)可以搜索模糊的記憶,而非依賴(lài)精確的文件名。
值得注意的是,Recall 功能原計(jì)劃于去年 6 月與 Copilot Plus PC 同步推出,但由于安全研究人員提出隱私擔(dān)憂(yōu)而多次推遲。微軟過(guò)去 10 個(gè)月對(duì) Recall 的安全性進(jìn)行了調(diào)整,將其設(shè)計(jì)為完全自愿的選擇性功能。
現(xiàn)在,該數(shù)據(jù)庫(kù)已實(shí)現(xiàn)加密,并默認(rèn)過(guò)濾敏感數(shù)據(jù),用戶(hù)必須主動(dòng)選擇啟用才能使用。
除 Recall 外,微軟同時(shí)升級(jí)了 Windows 搜索功能,使其支持自然語(yǔ)言查詢(xún),比如用戶(hù)可以直接搜索「棕色狗」來(lái)查找相關(guān)圖片,而不必知道具體文件名或創(chuàng)建日期。
新推出的 Click to Do 功能則允許用戶(hù)通過(guò) Windows 鍵和鼠標(biāo)左鍵的組合快速對(duì)屏幕上的文字或圖像進(jìn)行操作,包括總結(jié)文本或從圖像中移除對(duì)象等。
https://www.theverge.com/news/656106/microsoft-recall-copilot-plus-pc-available
Hunt for Fun | 先玩
這段提示詞,讓 GPT-4o 修復(fù)你的舊照片
根據(jù)網(wǎng)友的實(shí)測(cè),外媒 TechRadar 發(fā)現(xiàn)通過(guò)一段提示詞,GPT-4o 能夠?qū)⒁恍├吓f照片轉(zhuǎn)換成修復(fù)后的彩色版本,雖然那并未做到真正的「修復(fù)」,但效果卻頗為驚艷。
提示詞如下:
Please upscale and colorize this photo while keeping it faithful to the time period. Do not change the arrangement, expressions, background, or attire; only add period-accurate color and details. The new photo should overlay the original exactly.
比方說(shuō),我上傳了一張愛(ài)因斯坦的經(jīng)典照片,經(jīng)過(guò) AI 的「后期」后成功上色。
再比如,還有這張經(jīng)典的魯迅照片也得到了較好的還原。
家里有舊照片的朋友不妨多嘗試一下。
https://www.techradar.com/computing/artificial-intelligence/i-tried-using-chatgpt-to-restore-old-photos-heres-how-to-really-do-it
Hunt for Insight|先知
Meta CTO:AI 可能徹底顛覆現(xiàn)有的 APP
Meta 首席技術(shù)官 Andrew Bosworth 近日與 a16z 風(fēng)投合伙人 David George 進(jìn)行了一場(chǎng)深度對(duì)談,詳細(xì)闡述了 Meta 對(duì)「后手機(jī)時(shí)代」的戰(zhàn)略規(guī)劃。
Bosworth 認(rèn)為,十年后人們獲取內(nèi)容的方式將發(fā)生根本性變化,不再僅限于拿出手機(jī)。
「AR(增強(qiáng)現(xiàn)實(shí))眼鏡是真正可能實(shí)現(xiàn)的,它將為我們提供更自然的交互方式,通過(guò)眼睛和耳朵獲取信息,不再依賴(lài)鍵盤(pán)或觸摸屏,」他表示。Meta 的愿景是創(chuàng)造一個(gè)「眼鏡」能夠替代智能手機(jī)的世界。
Bosworth 認(rèn)為 AI 可能徹底顛覆現(xiàn)有的 APP。
「現(xiàn)在,如果我想播放音樂(lè),首先想到的是『我要用哪個(gè)提供商——Spotify 還是 Tidal?』但這不是我真正想要的。我想要的只是播放音樂(lè)。」他設(shè)想在未來(lái),用戶(hù)只需表達(dá)意圖,由 AI 自行決定如何完成任務(wù)。
關(guān)于開(kāi)源,Bosworth 強(qiáng)調(diào)了 Meta 開(kāi)源 AI 模型 Llama 的戰(zhàn)略意義:
「對(duì)我們來(lái)說(shuō),將基礎(chǔ)模型商品化是有利的商業(yè)決策。有大量?jī)r(jià)格具有競(jìng)爭(zhēng)力或幾乎免費(fèi)的模型有助于整個(gè)生態(tài)系統(tǒng)發(fā)展。它幫助初創(chuàng)公司、學(xué)術(shù)界,也幫助我們成為平臺(tái)提供商。」
盡管愿景宏大,Bosworth 也坦承實(shí)現(xiàn)「后手機(jī)時(shí)代」面臨多重挑戰(zhàn),包括技術(shù)發(fā)明風(fēng)險(xiǎn)、社會(huì)接受度和生態(tài)系統(tǒng)建設(shè)。「手機(jī)是我們生活的中心。這是我操作家庭、汽車(chē)和工作的方式。世界已經(jīng)適應(yīng)了手機(jī)。」
https://a16z.com/after-mobile-consumer-tech-andrew-bosworth/?utm\_source=tech.therundown.ai&utm\_medium=referral&utm\_campaign=netflix-s-trillion-dollar-dreams
微軟:2025 年是前沿公司誕生元年
微軟最新研究報(bào)告顯示,2025 年將成為「Frontier Firm」(前沿企業(yè))誕生的元年。
「Frontier Firm」的典型特征是圍繞按需智能構(gòu)建,由人類(lèi)和 AI Agent 組成的「混合」團(tuán)隊(duì)支持,能夠快速擴(kuò)展、敏捷運(yùn)營(yíng)并加速創(chuàng)造價(jià)值。
據(jù)調(diào)查,82% 的企業(yè)領(lǐng)導(dǎo)者認(rèn)為 2025 年是重新思考戰(zhàn)略和運(yùn)營(yíng)關(guān)鍵方面的關(guān)鍵一年,81% 的領(lǐng)導(dǎo)者預(yù)計(jì)在未來(lái) 12-18 個(gè)月內(nèi),AI Agent 將深度整合到公司戰(zhàn)略中。24% 的領(lǐng)導(dǎo)者表示其公司已在全組織范圍內(nèi)部署 AI,而僅 12% 的公司仍處于試點(diǎn)階段。
通往「Frontier Firm」的發(fā)展可分為三個(gè)階段:
首先,AI 作為助手消除繁重工作;其次,AI Agent 作為「數(shù)字同事」加入團(tuán)隊(duì),在人類(lèi)指導(dǎo)下承擔(dān)特定任務(wù);最后,人類(lèi)為運(yùn)行整個(gè)業(yè)務(wù)流程的 AI Agent 設(shè)定方向,僅在必要時(shí)參與。
這一進(jìn)程并非嚴(yán)格線(xiàn)性發(fā)展,許多組織將同時(shí)處于多個(gè)階段。
研究顯示,現(xiàn)有的「Frontier Firms」已顯示出顯著優(yōu)勢(shì):71% 的這類(lèi)公司員工表示公司蒸蒸日上;55% 能夠承擔(dān)更多工作;90% 報(bào)告有機(jī)會(huì)從事有意義的工作;93% 對(duì)未來(lái)工作機(jī)會(huì)持樂(lè)觀態(tài)度,且只有 21% 擔(dān)心 AI 會(huì)搶走工作。
https://www.microsoft.com/en-us/worklab/work-trend-index/2025-the-year-the-frontier-firm-is-born?utm\_source=www.therundown.ai&utm\_medium=referral&utm\_campaign=openai-s-viral-imagegen-heads-to-the-masses
YC 合伙人 Pete Koomen:別把 AI 產(chǎn)品做成「無(wú)馬馬車(chē)」
YC 合伙人 Pete Koomen 近日在個(gè)人博客中發(fā)表文章,指出當(dāng)前許多流行的 AI 產(chǎn)品設(shè)計(jì)存在根本性缺陷,他將這些產(chǎn)品比喻為「無(wú)馬馬車(chē)」,意指它們?nèi)匀蛔裱瓊鹘y(tǒng)軟件設(shè)計(jì)思維,未能真正發(fā)揮 AI 技術(shù)的潛力。
根據(jù) Koomen 的觀察,他發(fā)現(xiàn)自己更喜歡親自利用 AI 構(gòu)建軟件,而非使用現(xiàn)有的 AI 應(yīng)用。
他表示:「當(dāng)我利用 AI 親手構(gòu)建軟件時(shí),我可以非常快速地編寫(xiě)出任何我能想象到的功能。AI 給人的感覺(jué)就像是一款強(qiáng)大而有趣的工具。而許多已經(jīng)存在的 AI 應(yīng)用程序卻并非如此。」
Koomen 以 Google Gmail 的 AI 助手為例,詳細(xì)解析了其設(shè)計(jì)缺陷。
Gmail 最近推出了使用 Gemini 模型從零開(kāi)始生成電子郵件草稿的功能,但 Koomen 指出,這些自動(dòng)生成的郵件草稿不僅語(yǔ)氣與用戶(hù)個(gè)人風(fēng)格相去甚遠(yuǎn),而且通常比用戶(hù)自己撰寫(xiě)的郵件更加冗長(zhǎng),反而增加了用戶(hù)的負(fù)擔(dān)。
Koomen 認(rèn)為問(wèn)題不在于 AI 模型本身的能力不足,而是應(yīng)用程序的設(shè)計(jì)限制了模型的發(fā)揮。他指出,當(dāng)前 AI 應(yīng)用設(shè)計(jì)的核心問(wèn)題在于沒(méi)有開(kāi)放系統(tǒng) Prompt 的編輯權(quán)限給用戶(hù)。
為了證明這一點(diǎn),Koomen 自己編寫(xiě)了一個(gè)簡(jiǎn)易的 AI 郵件助手,允許用戶(hù)自定義系統(tǒng) Prompt。通過(guò)這種方式,AI 能夠?qū)W習(xí)用戶(hù)的寫(xiě)作風(fēng)格,生成真正符合用戶(hù)個(gè)性的內(nèi)容。他還展示了自己設(shè)計(jì)的「Pete 系統(tǒng)提示」,該提示能夠讓 AI 生成與他個(gè)人風(fēng)格高度一致的郵件草稿。
Koomen 進(jìn)一步指出,限制當(dāng)前 AI 應(yīng)用程序發(fā)展的是一種「舊世界思維」。在傳統(tǒng)軟件模式下,開(kāi)發(fā)者充當(dāng)人類(lèi)與計(jì)算機(jī)之間的中間人,決定軟件在一般情況下能做什么,而用戶(hù)只能提供輸入內(nèi)容。這種框架自然而然地將系統(tǒng) Prompt 視為開(kāi)發(fā)者的工作,而用戶(hù) Prompt 視為用戶(hù)的工作。
然而,Koomen 認(rèn)為,在 AI 時(shí)代,用戶(hù)不再需要中間人來(lái)告訴計(jì)算機(jī)該做什么。「當(dāng)一個(gè) AI 模型代表我行事時(shí),我應(yīng)該能夠通過(guò)編輯系統(tǒng) Prompt 來(lái)教它如何模仿我的行為,」他強(qiáng)調(diào),「在大多數(shù) AI 應(yīng)用程序中,系統(tǒng) Prompt 應(yīng)該由用戶(hù)自己編寫(xiě)和維護(hù),而不是軟件開(kāi)發(fā)者。」
「AI 原生軟件應(yīng)該最大化用戶(hù)在特定領(lǐng)域的效率,」Koomen 總結(jié)道。
https://koomen.dev/essays/horseless-carriages/#a-better-email-assistant
Anthropic CEO 呼吁打開(kāi) AI 的「黑匣子」
Anthropic 首席執(zhí)行官 Dario Amodei 近日發(fā)表一篇題為《可解釋性的緊迫性》的重要博客,強(qiáng)調(diào)當(dāng)前研究人員對(duì)世界領(lǐng)先 AI 模型內(nèi)部運(yùn)作機(jī)制的了解極為有限,希望到 2027 年能夠可靠地檢測(cè)出大多數(shù) AI 模型問(wèn)題。
Amodei 指出:「我非常擔(dān)心在沒(méi)有更好地理解可解釋性的情況下部署這些系統(tǒng)。這些系統(tǒng)將成為經(jīng)濟(jì)、技術(shù)和國(guó)家安全的核心,并且擁有如此高的自主權(quán),人類(lèi)對(duì)其工作原理一無(wú)所知是完全不可接受的。」
Amodei 引用 Anthropic 聯(lián)合創(chuàng)始人 Chris Olah 的觀點(diǎn),認(rèn)為 AI 模型「更多是生長(zhǎng)而非構(gòu)建的」。換言之,AI 研究人員已經(jīng)找到了提高 AI 模型智能的方法,但他們并不完全理解其中的原理。
在推動(dòng)可解釋性研究方面,Anthropic 已取得一些突破性進(jìn)展。
公司發(fā)現(xiàn)了追蹤 AI 模型思維路徑的方法,通過(guò)所謂的「電路」。例如,他們識(shí)別出一個(gè)幫助 AI 模型理解美國(guó)城市與州關(guān)系的電路。雖然公司目前只發(fā)現(xiàn)了少數(shù)幾個(gè)這樣的電路,但估計(jì) AI 模型中可能存在數(shù)百萬(wàn)個(gè)。
從長(zhǎng)遠(yuǎn)來(lái)看,Amodei 表示,Anthropic 希望能夠?qū)ψ钕冗M(jìn)的 AI 模型進(jìn)行類(lèi)似「腦部掃描」或「核磁共振」的檢查,以識(shí)別 AI 模型中的各種問(wèn)題,包括撒謊的傾向,以及其他弱點(diǎn)。
他認(rèn)為,這可能需要 5 到 10 年才能實(shí)現(xiàn),但這些措施對(duì)于測(cè)試和部署未來(lái)的 AI 模型至關(guān)重要。
https://techcrunch.com/2025/04/24/anthropic-ceo-wants-to-open-the-black-box-of-ai-models-by-2027/
彩蛋時(shí)間
向左滑動(dòng)查看更多內(nèi)容
作者:@gizakdag
工具:GPT-4o
Prompt: Create image of A colorful, hand-tufted rug in the shape of the attached image, placed on a simple tiled background. The rug has a bold, playful design with soft, fluffy texture and thick yarn details. Shot from above, in natural daylight, with a slightly quirky, DIY aesthetic. Vibrant colors, cartoonish outlines, and tactile, cozy material—similar to handmade tufted art rugs.
鏈接:https://x.com/gizakdag/status/1913963127902818711
我們正在招募伙伴
簡(jiǎn)歷投遞郵箱hr@ifanr.com
?? 郵件標(biāo)題「姓名+崗位名稱(chēng)」(請(qǐng)隨簡(jiǎn)歷附上項(xiàng)目/作品或相關(guān)鏈接)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.