8月7日消息,小紅書hi lab(人文智能實驗室)開源了其首款多模態(tài)大模型dots.vlm1,這一模型基于DeepSeek V3打造,并配備了由小紅書自研的12億參數(shù)視覺編碼器NaViT,具備多模態(tài)理解與推理能力。這一模型可以看懂復(fù)雜的圖文圖表,理解表情包背后的含義,分析兩款產(chǎn)品的配料表差異,還能判斷博物館中文物、畫作的名稱和背景信息。
圖源:Hugging Face
hi lab稱,在主要的視覺評測集上,dots.vlm1的整體表現(xiàn)已接近當(dāng)前領(lǐng)先模型,如Gemini 2.5 Pro與Seed-VL1.5 thinking,尤其在MMMU、MathVision、OCR Reasoning等多個基準(zhǔn)測試中顯示出較強(qiáng)的圖文理解與推理能力。在典型的文本推理任務(wù)(如AIME、GPQA、LiveCodeBench)上,dots.vlm1的表現(xiàn)大致相當(dāng)于DeepSeek-R1-0528,在數(shù)學(xué)和代碼能力上已具備一定的通用性,但在GPQA等更多樣的推理任務(wù)上仍存在差距。
總體來看,dots.vlm1在視覺多模態(tài)能力方面已接近SOTA(最佳性能)水平,在文本推理方面達(dá)到了主流模型的性能。但hi lab也強(qiáng)調(diào),dots.vlm1在部分細(xì)分任務(wù)上仍與最優(yōu)結(jié)果存在一定距離,需要在架構(gòu)設(shè)計與訓(xùn)練數(shù)據(jù)上進(jìn)一步優(yōu)化。目前,dots.vlm1已上傳至開源托管平臺Hugging Face,用戶還可以在Hugging Face上的體驗鏈接中免費使用這一模型。
今年6月6日,小紅書開源了其首款大語言模型,并在之后開源了用于OCR的專用模型,以及視覺、獎勵模型等前沿方向的研究成果。
本文鏈接:http://m.enbeike.cn/news-12-34789-0.html小紅書開源首款多模態(tài)大模型
聲明:本網(wǎng)頁內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻(xiàn),不代表本站觀點,本站不承擔(dān)任何法律責(zé)任。天上不會到餡餅,請大家謹(jǐn)防詐騙!若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。
點擊右上角微信好友
朋友圈
點擊瀏覽器下方“”分享微信好友Safari瀏覽器請點擊“
”按鈕
點擊右上角QQ
點擊瀏覽器下方“”分享QQ好友Safari瀏覽器請點擊“
”按鈕