算一下,一碟 15,這是吃了多少?
答:一共14盤,合計(jì)210
AI 是可以拿來(lái)做盤點(diǎn)的
方法:AI 數(shù)的,容我細(xì)細(xì)道來(lái)
字節(jié)發(fā)了新模型
今天是字節(jié)的發(fā)布會(huì),我去了現(xiàn)場(chǎng)。
豆包 1.5 深度思考模型上線,200B MoE,20B 激活參數(shù),R1 級(jí)別的性能。
豆包 1.5 深度思考模型上線
但很多人沒(méi)注意到是,伴隨這個(gè)模型的,還有個(gè)有非常趣的小玩意兒:Doubao-1.5-vision-pro。
還有個(gè)視覺(jué)理解模型
仔細(xì)看了文檔后,注意到有這樣一段:
視覺(jué)定位能力大幅提升:支持對(duì)單目標(biāo)、多目標(biāo)、小目標(biāo)等進(jìn)行邊界框或點(diǎn)提示進(jìn)行定位,并支持基于定位進(jìn)行計(jì)數(shù),給出坐標(biāo)位置,或描述所定位內(nèi)容。支持 3D 定位,可基于圖像進(jìn)行深度預(yù)測(cè)、距離排序、深度比較等。可以廣泛用在各類巡檢等上商業(yè)化場(chǎng)景中。
這是一個(gè)小小的、但很有意義的進(jìn)步:大模型可以給圖片穩(wěn)定打標(biāo)記了
把圖交給它,讓它識(shí)別所有壽司盤的位置,輸出坐標(biāo)。
讓模型獲取坐標(biāo)
有了格式化的坐標(biāo),只需要一個(gè)腳本就可以標(biāo)注了:設(shè)定線條長(zhǎng)度 200,粗度 10,顏色亮青,文字字號(hào) 70,配了黑色陰影,保證在各種光線下都能看清。
# Reload image again for a clean slate highlighted_image = Image.open(new_image_path) draw = ImageDraw.Draw(highlighted_image) # Define more vibrant color scheme line_color = "#00FFFF" text_color = "#00FFFF" shadow_color = "black" # Draw lines and bright text with shadow for idx, (x, y) in enumerate(scaled_new_points, start=1): left = x - new_line_length / 2 right = x + new_line_length / 2 top = y - new_line_height / 2 bottom = y + new_line_height / 2 # Draw vibrant line draw.rounded_rectangle([(left, top), (right, bottom)], radius=new_line_height / 2, fill=line_color) # Draw text shadow text_position = (left - 10, y) shadow_position = (text_position[0] + shadow_offset, text_position[1] + shadow_offset) draw.text(shadow_position, str(idx), font=large_font, fill=shadow_color, anchor="rm") # Draw main vibrant text draw.text(text_position, str(idx), font=large_font, fill=text_color, anchor="rm") # Display updated image with high visibility colors plt.figure(figsize=(10, 8)) plt.imshow(highlighted_image) plt.axis("off") plt.show()
運(yùn)行一下,大功告成。
標(biāo)注好的圖片 視覺(jué)思考的落地
這事兒做完我突然意識(shí)到,
這不就是很多場(chǎng)景下都用得上的“圖像計(jì)數(shù)”嗎?
于是,我測(cè)了幾個(gè)別的:
街頭照片,他知道路牌在哪;
獲取路標(biāo)位置 標(biāo)記好的路牌
或者拿它去標(biāo)注米老鼠的帽子。
眾所周知,初版米老鼠版權(quán)到了
你不用告訴它“那是個(gè)什么”,只要給出目標(biāo)定義或提問(wèn)方式,就能獲得結(jié)果。
小任務(wù),不小的價(jià)值
多模態(tài)這幾年卷得飛起,但真正能落地的場(chǎng)景并不多:AI 寫詩(shī)、拍題解題,這些看起來(lái)很炫,但離實(shí)際太遠(yuǎn)。
但我們也知道,每刻都有無(wú)數(shù)人在認(rèn)真的應(yīng)對(duì)工作:盤庫(kù)存、數(shù)元件...勞心勞力。那么,這些事情,為什么不交給 AI 呢?
在幾年前,還是 CV 當(dāng)?shù)赖臅r(shí)候,你會(huì)說(shuō):開(kāi)發(fā)個(gè) AI,可比人力貴多了。
但現(xiàn)在不同了:對(duì)著你的任務(wù),只需要一個(gè)明確的問(wèn)題,就可以拿到一份標(biāo)注好的信息
誠(chéng)然,單以現(xiàn)在來(lái)看,問(wèn)題也不少:
? 角度偏了、光線不均,容易漏標(biāo);
? 目標(biāo)密集時(shí),編號(hào)會(huì)擠在一起,看不清楚;
? 背景復(fù)雜時(shí),有時(shí)會(huì)誤判或者漏標(biāo)。
這些問(wèn)題都是可以優(yōu)化的。
質(zhì)變已經(jīng)發(fā)生了,量變只是時(shí)間問(wèn)題。 那么,希望硅基大人,日后要好好打工
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.