時代變化在悄然之間
整理|何煦陽
2024年拍馬而過,2023年ChatGPT帶給行業的震撼至今還沒完全消散,2024年又發生了哪些顛覆性事件,會在未來深刻影響每個行業,每個人?
鯨哥結合行業觀察家John Rush的內容,做了一定程度的編輯,和大家共享顛覆時刻。
01
Optimus第二代發布
具身智能時代來襲
特斯拉的機器人Optimus第二代在年中亮相,目前已經能利用端到端神經網絡執行基本工廠任務,包括對4680型電池單體精確地分類并插入托盤,并且走路速度大幅提升,較去年12月時速度提高30%以上,目前約為0.6 米/秒。
靈巧手是特斯拉二代Optimus最引人注目地方。特斯拉Optimus工程師Milan Kovac將最新展示的靈巧手稱為“里程碑式的成就”。與上一代產品相比,該新手/前臂擁有雙倍的自由度(手上有22個自由度,手腕/前臂上有3個自由度)。而人類的手通常被認為具有27個自由度,手部自由度越高,越能做出更加復雜和精細的動作。
大腦和本體的兩項顛覆性進展,意味著馬斯克的機器人夢想順利。即計劃從2024年底開始小批量試產Optimus機器人,預計2025年全年生產數千至一萬臺,遠期覆蓋全球100億臺。
02
臺積電試產 2nm 工藝
蘋果將首發嘗鮮
據供應鏈消息,臺積電在新竹縣寶山工廠進行了2nm工藝的試產工作,其良品率達到了60%,超過臺積電內部預期。
據了解,在2nm工藝節點上,臺積電的準備可謂全面,在晶體管架構上,臺積電要在2nm工藝上采用全新的GAA(Gate-All-Around)晶體管架構,不同于傳統的FinFET架構,這種技術能夠在性能和功耗上實現顯著提升。
根據臺積電的數據,與3nm制程相比,2nm制程性能將提高10%~15%,在相同性能下,其功耗降低30%,目前臺積電2nm還在試產的初始階段,需要一些時間才能正式量產,目前仍按照計劃進行。
可以預見的是,蘋果將會是臺積電2nm制程初期的主要客戶,畢竟2nm制程成本要更加昂貴,消息稱臺積電2nm芯片成本是4nm的兩倍,每片晶圓的價格高達30000美元,只有在高端市場獲得一席之地的蘋果才能負擔高昂的成本。
按照計劃,臺積電會在2025年下半年進行2nm的大規模量產工作,按照量產進度,iPhone 17系列無緣2nm,iPhone 18 Pro系列則會首發臺積電2nm芯片。
臺積電董事長魏哲家表示,未來五年內臺積電有望實現連續、健康的增長,客戶對于2nm的詢問多于3nm,看起來更受客戶的歡迎,2nm不但能復制3nm的成功,甚至有超越的勢頭。
03
Google VEO-2 超越 Sora
人人皆可制作電影
今年 5 月,Google 在 I/O 大會上發布了對標 OpenAI Sora 的視頻生成模型——Veo,它可以生成各種電影和視覺風格的高質量 1080p 分辨率視頻,時間可以超過一分鐘。
時隔 7 個月,在 OpenAI 官宣Sora正式可用之際,Google 發布下一代視頻生成模型 Veo 2 與之抗衡。Veo 2 不僅提升了視覺真實感,還可以創建分辨率高達 4k(4096 x 2160 像素)的兩分鐘以上的視頻——這一分辨率是 OpenAI Sora 的 4 倍,持續時間更是其 6 倍以上。
Google 表示,Veo 2 能夠理解現實世界的物理現象與規律,并生成各種主題和風格的高質量“更清晰”的視頻。這對于 AI 視頻生成模型而言是一項重大突破,因為即使是 OpenAI Sora,有時候也難以理解物理現象。
Veo 2 還掌握了電影藝術獨特的語言:用戶可以指定一個類型、選擇鏡頭、建議電影效果,Veo 2 就能生成滿足要求的視頻,分辨率最高可達 4K,時長延展至數分鐘。
04
SpaceX 星艦第五次試飛
成功上演“筷子夾火箭”
北京時間10月13日晚上20點,SpaceX星艦第五次試飛,成功上演“筷子夾火箭”,即通過塔架上的兩根巨型機械臂,精準地捕捉并穩住正在返回地面的超重型火箭助推器。
傳統的海上平臺著陸后,火箭需要運輸、檢查和重新部署,整個過程耗時費力,通過“筷子夾火箭”,火箭回收和重新部署的速度大幅提升。
火箭回收成功后,SpaceX只需要對火箭進行簡單的檢查和維護,而不必像以前一樣更換著陸腿等關鍵部件。此外,由于取消了海上平臺和著陸腿,這種新回收方式降低了火箭的總成本,同時也減少了由于海上天氣等不可控因素導致的回收失敗風險。
筷子夾火箭”回收技術還意味著火箭可以不再依賴特定的海上平臺,而是能夠在任何有配備機械臂的塔架上進行回收。這使得火箭的發射和回收變得更加靈活,不再受到地理條件的限制,進而為未來星際任務的快速部署創造了條件。
隨著這一技術的成功,SpaceX離其星際殖民的目標又邁進了一步。通過大規模降低發射成本、提高回收效率,星艦項目將使得載人火星任務成為現實。
05
Meta推出首款AI眼鏡Orion
正面挑戰Vision Pro
扎克伯格推出了首款AR眼鏡Orion。據Meta介紹,每副眼鏡的生產成本大約1萬美元(約7萬人民幣),這可能也是史上最貴AR眼鏡。
Orion為分體式設計,采用波導方案設計,擁有厚重黑色邊框,重98g。該AR眼鏡能與Meta自研的肌電手環相適配,擁有手部跟蹤、眼部跟蹤、頭部追蹤等多種交互方式。
從演示視頻上來看,用戶戴上Orion可以刷網頁、看短劇,甚至玩一些簡單的3D游戲。當然,你也可以在Orion上聽音樂、接視頻電話。不過,現階段的Orion 眼鏡僅用作演示和內部開發套件,大約僅生產1000副,并不對外正式開售。
這次Meta官方幾乎沒有提任何有關Orion的參數信息,芯片、光學、續航均未涉及。小扎只是拉來一眾好友體驗這款AR眼鏡,為其站臺。英偉達CEO黃仁勛在體驗這款AR眼鏡時,直言:“顯示很棒,追蹤很棒,色彩也很不錯。”
06
Neuralink讓盲人重見光明,
讓癱瘓者用大腦控制電腦
腦機接口(BMI)領域在過去一個世紀取得了顯著進展,從1924年引入腦電圖(EEG)到2021年猴子用大腦玩乒乓球游戲,再到今年Neuralink的N1植入體成功植入多人,并讓他們在家中使用。
N1植入體為四肢癱瘓患者帶來了突破,它能將運動皮層的神經信號轉換為數字指令,讓用戶通過思想控制光標、打字、發送信息、創作藝術和音樂,最終實現生活上的巨大改變。
Neuralink臨床試驗的首位參與者Noland Arbaugh,現在可以用思想玩電子游戲、直播和使用筆記本電腦。另一位參與者Alex則使用CAD軟件設計復雜的3D物體,這些案例不再是孤立的,而是開啟了全球范圍內為數百萬人恢復獨立性的革命序章。
Noland Arbaugh 的用戶反饋充分體現了這項技術的意義:“Neuralink幫助我重新連接了世界、朋友和家人。我可以再次獨立做事,無需家人隨時隨地的幫助。” 他還提到,“我可以在床上使用(Neuralink),其他的輔助技術需要有人幫忙或坐起來,而坐姿會給我身體和精神帶來壓力,導致褥瘡或痙攣。它可以讓我按照自己的節奏生活。”他認為,Neuralink應該能給很多人帶來希望。
07
Oura Ring 4熱銷
智能戒指的成熟之作
從誕生之日起,可穿戴設備就和健康監測功能密不可分,從最早Jawbone Up、Fitbit到后來的小米手環、Apple Watch,在AI時代出現之前,幾乎每一款可穿戴設備都將健康監測當作其核心賣點。
智能戒指,作為智能穿戴設備中的新秀正在快速崛起。與智能手表、智能手環相比,智能戒指體積更小、“存在感”也更小。憑借這種獨一無二的“無感”特性,智能戒指的應用場景遠比智能手環、智能手表要豐富得多。
10月份,Oura發布了新一代智能戒指Oura Ring 4。Oura Ring 4 能夠監測用戶的睡眠質量、身體活動、壓力水平,甚至心率、皮膚溫度和血氧飽和度等身體指標,幫助用戶準確追蹤、提升睡眠質量,就像是一個“指上睡眠研究所”。
與上一代相比,新發布Oura Ring 4跟前三代最大的不同是有AI的加持。其中,Oura Advisor是Oura為用戶準備的生成式AI聊天機器人。用戶可以詢問自己的某些健康指標,它會基于APP中所收集到的數據以及專業健康知識給出回答,為用戶提供個性化的保健建議。
目前,Oura完成了D輪融資,由血糖設備公司Dexcom領投7500萬美元。融資完成后,Oura估值超過了50億美金,比2022年的估值(26億美金)高出近1倍。高估值背后是Oura出色的商業化表現。根據前段時間公布的數據,Oura的智能戒指已經銷售了250多萬枚,今年的銷量額將翻一番,達到5億美金。而且,根據CEO Tom Hale的說法,Oura的利潤率遠高于傳統硬件制造商,甚至接近軟件公司。
08
Cursor成編程領域的GPT
人人皆可編程
Cursor是一款集成了人工智能(AI)技術的代碼編輯器,旨在提升開發者的編程效率和代碼質量。作為Visual Studio Code的一個分支,Cursor兼容多種插件和設置,提供了智能代碼補全、代碼生成、代碼重構等功能。
智能代碼補全:Cursor通過AI技術,根據上下文為開發者提供精準的代碼補全建議,支持多種編程語言,如Python、JavaScript、Java等。
代碼生成與重構:開發者可以使用自然語言描述需求,Cursor會自動生成相應的代碼片段,并提供代碼優化和重構建議,提升代碼質量。
AI聊天功能:Cursor內置了AI聊天功能,開發者可以在編碼過程中與AI助手互動,獲取代碼解釋、調試建議等支持。
多文件編輯:Cursor允許同時編輯多個文件,適用于復雜項目的開發需求。
使用體驗:Cursor的界面與Visual Studio Code相似,用戶可以無縫銜接使用。其AI功能能夠顯著提高編碼效率,減少重復性工作。此外,Cursor支持多種AI模型,如GPT-4、Claude 3.5等,用戶可以根據需求選擇合適的模型進行輔助編程。
09
Suno AI 顛覆音樂創作,
人人皆可創作音樂
Suno成立于2022年,Suno提供AI音樂生成工具,用戶可以通過簡單的文本提示創作出多種音樂風格的高質量音樂和語音。聯合創始人包括Mikey Shulman、Keenan Freyberg、Georg Kucsko和Martin Camacho。
截至2024年5月,Suno用戶已經超過了1000萬,Suno年經常性收入(ARR)接近3000萬美金,并且每月的增長都還高達20%。
目前,該公司的總融資1250萬美元,估值5億美元,注冊?戶達到1200萬?戶。投資?有Founder Collective、Nat Friedman、Daniel Gross、Lightspeed Venture Partners。
10
蘋果發布Visual Intelligence
AI實時分析用戶周邊環境
蘋果公司給搭載了「相機控制」按鈕的 iPhone 16 系列機型開發了全新的 Visual Intelligence 視覺智能功能。這一功能可以幫助用戶進行識物,獲取關于物品的更多信息,還可以提供相應的購買渠道。用戶也可以直接調用 ChatGPT 對取景框中的物品進行描述。
此外,對于建筑物一類的對象,Visual Intelligence 可以告訴你它的地理位置;對于餐廳等地點,它甚至可以為用戶提供營業時間和菜單等相關信息。在我們日常出行和生活越來越便利的今天,Visual Intelligence 智能視覺的終極目標,就是要成為用戶的智能「機械眼」,讓用戶通過蘋果 AI 觀察世界,進一步降低獲取相關信息的成本,提高便利性和效率。
11
Google面臨被顛覆風險
ChatGPT Search入局搜索
OpenAI 12 天活動的第 8 天,OpenAI 產品負責人 Kevin 宣布,活動的重點是 ChatGPT Search。這次 OpenAI 主要對 ChatGPT Search 進行了功能優化和更新,主要包括:
OpenAI 根據過去幾個月的用戶反饋,讓搜索速度變得更快,尤其移動設備上的表現更好,還新增了一些地圖體驗等。
當用戶激活高級語音模式時,他們現在可以通過語音查詢進行搜索,ChatGPT 語音助手將以用戶選擇的聲音進行響應。
ChatGPT 將自動確定用戶問題是否需要來自網絡的最新信息。
更重要的是,ChatGPT Search 現在已面向全球所有已登錄的免費用戶開放。據外媒報道,ChatGPT 的周活躍用戶數目前超過 2 億,是一年前的兩倍。這意味著現在數億人可以使用 ChatGPT 進行搜索。“谷歌可能會比它迄今為止面臨的任何競爭對手更能感受到這一點。”有網友表示。
OpenAI還為用戶提供了將ChatGPT搜索設為瀏覽器默認搜索引擎的便利選項。
而Perplexity AI是一家成立于2022年的人工智能搜索引擎公司,總部位于美國舊金山。其創始團隊包括前OpenAI研究科學家Aravind Srinivas等人。Perplexity AI致力于通過結合大型語言模型(LLM)和實時網絡搜索,為用戶提供準確、可信賴的答案,并在回復中附上信息來源鏈接。
Perplexity AI的月活躍用戶已超過1500萬,主要通過訂閱和計劃中的廣告收入實現商業化。
12
大模型加持"Her"
AI語音助手更擬人
ChatGPT用戶現在可以在啟用高級語音模式(Advanced Voice Mode)后,通過語音進行搜索。用戶也可以詢問最新的旅游目的地信息、最新的天氣預報,甚至是活動建議等。ChatGPT的語音助手提供10種預設語音風格,它將會采用用戶選擇的語音風格進行回復。
高級語音模式在去年發布的 GPT-4o 中已經預覽過,但當時只有音頻模式是實時的。現在,用戶可以使用手機攝像頭與 ChatGPT 聊天,大模型將會 “看到 ”你所看到的一切,包括你的手機屏幕。
進行實時視頻通話功能的演示時,OpenAI的首席產品官 Kevin Weil首先牽頭測試了一番ChatGPT的“記憶”能力。在OpenAI 的團隊成員依次與ChatGPT視頻打過招呼并有了一定的認識后,Weil要求它回憶各位成員的特征并說出相應的姓名。
接下來, Weil 又和其他 OpenAI 團隊成員演示了 ChatGPT 協助如何制作手沖咖啡:通過將攝像機對準動作,AVM 展示了它對咖啡機原理的理解,并引導提問者完成咖啡的整個沖泡過程。并且,在整個演示過程中,ChatGPT Advanced Voice 保持了自然而親切的聲音,還調整了它的語氣,甚至像人類一樣大笑。Siri智障時代應該要過去了。
13
Google發超導量子芯片Willow
量子計算決定性的技術突破
12月10日,谷歌重磅推出全新的量子芯片——Willow(共105個量子比特),在AI圈掀起了海嘯級巨震。在一個標準基準計算任務,Willow用時不到5分鐘(300秒)神速完成。而如今,世界上最快超算Frontier要完成同樣任務,則需要10億億億年,也就是10,000,000,000,000,000,000,000,000年。這一天文般的數字,遠遠超過了宇宙的年齡(138億年)!
Willow不僅僅是速度的勝利,更取得了量子計算領域決定性的技術突破——隨著量子比特數量的增加,這款芯片的誤差也呈指數級下降。這種精度提升的速率超出了一個關鍵閾值。這意味著,曾困擾量子計算近30年的糾錯問題,終于迎來曙光。
14
特斯拉發布FSD V13.2
全自動駕駛時代來臨
特斯拉官方最新消息,12月1日已經向美國地區全系車主推送了FSD V13.2。
這次FSD V13.2更新,最大的亮點莫過于實現了復雜場景的“車位到車位”。
所謂的“車位到車位”,簡單來說就是上車即可開啟智駕,全程智能駕駛,到達目的地車位。除了行駛過程中可能需要接管之外,這樣的體驗已經和人們想象中的“自動駕駛”非常類似,因為它已經將用戶開車的全場景都覆蓋。
也因此,實現“車位到車位”功能通常被視為高級別自動駕駛技術的標志,接近L3自動駕駛水平。
目前,國內新勢力智駕的“車位到車位”,由于在地庫、封閉停車場場景時沒有導航信息,需要由用戶先跑“圖”。有車企要求車主把地庫所有路線都跑一遍,給地庫建一次全面、清晰的地圖后,才可以使用“從車位到車位”。
相對比之下,此版 FSD 的驚艷之處就體現出來了:從任意停車位自主啟動,自主掛檔。這已經是類人的駕駛邏輯了——車輛可以看情況出發,看情況停車,核心在于“看情況”。
15
AI發了人類歷史上第一個紅包
能像人類一樣操作計算機
11月29日,智譜AI的Open Day上,氣氛達到頂峰的一刻,無疑是智譜CEO張鵬舉起手機,對AI說:幫我在智譜開放日的群聊里發個兩萬的紅包,數量為一百個,名字為"AI給你發的第一個紅包"。而后,AI迅速調用微信,并且打開發開紅包功能,成功發布。
AutoGLM支持的App包括抖音、微博、京東、拼多多等App,而且更重要的是,可以完成跨App、跨端操作。舉個例子,在現場demo里,智譜清言插件自動完成了“搜索芒果tv,打開小巷人家,播放最新一集,發彈幕結局打卡”。全程沒有人的干預。在另一個采購火鍋食材的例子中,AutoGLM自主執行了54步操作,并且中間并未被打斷。在多步、循環任務中,AutoGLM的速度表現也超過人手動操作。
視頻內容推薦:
作者交流:
對話『火山引擎』總裁譚待:字節AI“ToB ” 的這一年
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.