算一下,一碟 15,這是吃了多少?
答:一共14盤,合計210
AI 是可以拿來做盤點的
方法:AI 數的,容我細細道來
字節發了新模型
今天是字節的發布會,我去了現場。
豆包 1.5 深度思考模型上線,200B MoE,20B 激活參數,R1 級別的性能。
豆包 1.5 深度思考模型上線
但很多人沒注意到是,伴隨這個模型的,還有個有非常趣的小玩意兒:Doubao-1.5-vision-pro。
還有個視覺理解模型
仔細看了文檔后,注意到有這樣一段:
視覺定位能力大幅提升:支持對單目標、多目標、小目標等進行邊界框或點提示進行定位,并支持基于定位進行計數,給出坐標位置,或描述所定位內容。支持 3D 定位,可基于圖像進行深度預測、距離排序、深度比較等??梢詮V泛用在各類巡檢等上商業化場景中。
這是一個小小的、但很有意義的進步:大模型可以給圖片穩定打標記了
把圖交給它,讓它識別所有壽司盤的位置,輸出坐標。
讓模型獲取坐標
有了格式化的坐標,只需要一個腳本就可以標注了:設定線條長度 200,粗度 10,顏色亮青,文字字號 70,配了黑色陰影,保證在各種光線下都能看清。
# Reload image again for a clean slate highlighted_image = Image.open(new_image_path) draw = ImageDraw.Draw(highlighted_image) # Define more vibrant color scheme line_color = "#00FFFF" text_color = "#00FFFF" shadow_color = "black" # Draw lines and bright text with shadow for idx, (x, y) in enumerate(scaled_new_points, start=1): left = x - new_line_length / 2 right = x + new_line_length / 2 top = y - new_line_height / 2 bottom = y + new_line_height / 2 # Draw vibrant line draw.rounded_rectangle([(left, top), (right, bottom)], radius=new_line_height / 2, fill=line_color) # Draw text shadow text_position = (left - 10, y) shadow_position = (text_position[0] + shadow_offset, text_position[1] + shadow_offset) draw.text(shadow_position, str(idx), font=large_font, fill=shadow_color, anchor="rm") # Draw main vibrant text draw.text(text_position, str(idx), font=large_font, fill=text_color, anchor="rm") # Display updated image with high visibility colors plt.figure(figsize=(10, 8)) plt.imshow(highlighted_image) plt.axis("off") plt.show()
運行一下,大功告成。
標注好的圖片 視覺思考的落地
這事兒做完我突然意識到,
這不就是很多場景下都用得上的“圖像計數”嗎?
于是,我測了幾個別的:
街頭照片,他知道路牌在哪;
獲取路標位置 標記好的路牌
或者拿它去標注米老鼠的帽子。
眾所周知,初版米老鼠版權到了
你不用告訴它“那是個什么”,只要給出目標定義或提問方式,就能獲得結果。
小任務,不小的價值
多模態這幾年卷得飛起,但真正能落地的場景并不多:AI 寫詩、拍題解題,這些看起來很炫,但離實際太遠。
但我們也知道,每刻都有無數人在認真的應對工作:盤庫存、數元件...勞心勞力。那么,這些事情,為什么不交給 AI 呢?
在幾年前,還是 CV 當道的時候,你會說:開發個 AI,可比人力貴多了。
但現在不同了:對著你的任務,只需要一個明確的問題,就可以拿到一份標注好的信息
誠然,單以現在來看,問題也不少:
? 角度偏了、光線不均,容易漏標;
? 目標密集時,編號會擠在一起,看不清楚;
? 背景復雜時,有時會誤判或者漏標。
這些問題都是可以優化的。
質變已經發生了,量變只是時間問題。 那么,希望硅基大人,日后要好好打工
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.