2026-01-21 21:58:52
1月20日,豆包成為上海浦東美術館兩項國際大展的官方AI講解員,是AI產品首次以“官方身份”進駐美術館。在展廳中,豆包能辨識數百件展品并支持互動。此前,豆包已與七家國家一級博物館合作,此次合作積累了垂直領域經驗。當前多模態(tài)AI競賽加速演進,豆包與專業(yè)機構合作具有長期價值,未來能力可遷移至多行業(yè)。
每經記者|李宇彤 每經編輯|魏文藝
藝術或許是人類世界中最復雜、最微妙的“視覺文本”之一。而當AI的視線投向這片由人類精神凝結的沃土時,將會發(fā)生什么?
1月20日,字節(jié)跳動旗下豆包與上海浦東美術館達成合作,正式成為該館兩項國際大展——“圖案的奇跡:盧浮宮印度、伊朗與奧斯曼的藝術杰作”與“非常畢加索:保羅·史密斯的新視角”的官方AI講解員。這也是AI產品首次以“官方身份”進駐美術館。

圖片來源:每經記者 李宇彤 攝
這背后,是豆包大模型視覺理解能力的一次場景化落地。通過獨家數據訓練與定向搜索優(yōu)化,在展廳中,豆包能辨識數百件展品,并支持觀眾連續(xù)、深入的追問式互動。
《每日經濟新聞》記者(以下簡稱“每經記者”)注意到,從識別一幅畫到理解一段文明,AI的“眼睛”正在變得愈發(fā)敏銳。隨著行業(yè)競爭從文本生成轉向視頻理解與實時交互,一個能真正“看得懂、說得清”的大模型,成為在智能體(Agent)時代的競爭中的關鍵。而視頻通話成為這項能力的集中展示場景。
2024年8月,智譜清言率先推出了國內首個面向C端(消費者端)開放的視頻通話功能。而到了2025年,阿里“千問”同樣配備了視頻通話功能。
那么在實際運用中豆包表現如何?當AI的“眼睛”成為兵家必爭之地,豆包又能否出奇制勝?
在真實的觀展場景中,觀眾的提問往往是開放而發(fā)散的。從“這是什么”的基礎詢問,到對創(chuàng)作背景、制作工藝的深入探討,這類多層次、即興的交互對AI的知識儲備與實時解析能力構成了持續(xù)考驗。
那么,豆包能否應對這樣的挑戰(zhàn)?每經記者在浦東美術館進行了一次現場檢驗。
在基礎信息層面,每經記者在“非常畢加索”展區(qū)請豆包介紹畢加索的“藍色時期”,其回答不僅涵蓋該階段的具體時間,還關聯到藝術家個人經歷與時代背景。每經記者還將豆包的回答與浦東美術館官方介紹進行了進一步核對,發(fā)現二者信息一致,但相較官方文藝的表達,豆包的表述更接近口語。

浦東美術館官方介紹和豆包介紹
在識別能力上,每經記者發(fā)現即使刻意避開展簽,豆包也能快速識別畫作并給出介紹,這項能力在面對“圖案的奇跡”中較為小眾的展品時亦能保持精準。
當問題深入至技法與工藝細節(jié)時,豆包同樣展現出結構化的解析能力。例如,面對畢加索畫作《裝扮成喜劇丑角的保羅》,它能結合藝術家當時初為人父的心境,闡釋其風格轉向與“未完成”筆觸的創(chuàng)作意圖。當每經記者在“圖案的奇跡”展區(qū)指向一件印度作品《珍珠母與貝殼執(zhí)壺》,接連拋出“珍珠母產地”“大器具如何固定”“彎曲部分如何制作”等具體工藝問題時,豆包也能從原料產地、工藝結構到歷史流通背景逐層解答。

豆包對于《珍珠母與貝殼執(zhí)壺》問題的回答
不過,在實際體驗中,豆包作為解說員的表現仍會受到客觀環(huán)境因素的制約。每經記者注意到,在手機信號較弱時,豆包難以完整、精確地識別語音提問的信息,但能依據對話上下文進行合理推斷,給出大致對應的回復。
事實上,在走進美術館之前,豆包的視頻通話能力已在更廣泛場景中經歷了數月的實踐打磨。2025年5月,豆包App上線基于視覺推理模型的視頻通話功能,支持實時視頻問答與聯網搜索,迅速吸引了眾多用戶體驗。
然而,從日常場景跨越到專業(yè)的美術館場域,對豆包的識別精度與知識儲備提出了更高維度的挑戰(zhàn)。豆包逛展項目負責人坦言:“在博物館場景中運用AI講解,最大的挑戰(zhàn)是保證內容的準確性。模型不僅要能區(qū)分外觀高度相似的文物、理解小眾且缺乏公開資料的展品,還要能在觀眾移動觀展、從不同角度和距離觀察同一件展品時,始終保持穩(wěn)定識別?!?/p>
為此,豆包與浦東美術館進行了獨家數據合作與定向搜索優(yōu)化,以此提升了文物識別與講解的可靠性,并實現了支持連續(xù)、深入追問的交互體驗。
據項目負責人介紹,該功能基于豆包視覺理解模型Seed 1.8的視覺語言理解能力。與早期“拍圖—提問—再拍圖”的斷點式交互不同,該模型能持續(xù)理解觀眾移動中不斷變化的視角和場景,實現近似于人與人之間的自然對話。
每經記者注意到,這不是豆包首次涉足文博領域。此前,豆包已與中國國家博物館、河南博物院等七家國家一級博物館達成合作,共同打造數字化看展體驗區(qū)。但此次以“官方AI講解員”身份參與,為豆包積累了稀缺的垂直領域經驗,也為其視覺模型在復雜、高要求場景下的可靠性提供了背書。
豆包在美術館中展現的“視覺能力”,背后是一場全球范圍內加速演進的多模態(tài)AI競賽,其中“視覺理解與實時交互”是當前關注的焦點。
2024年5月,OpenAI和谷歌接連發(fā)布“GPT-4o”和“Project Astra”兩款具備實時語音、視頻交互能力的產品之后,在國內市場,該賽道也被按下了加速鍵。同年8月,智譜清言面向用戶推出視頻通話功能,掀起了一輪測試熱潮。而到了2025年,阿里面向C端市場上線的千問項目同樣配備了視頻通話功能。
隨著競爭持續(xù)升級,行業(yè)對多模態(tài)價值的認識也逐步升級為衡量AI能否進入更深場景的標尺。
2025年12月,在火山引擎原動力大會上,火山引擎總裁譚待明確指出:“多模態(tài)其實代表著模型的應用進入更深的領域?!彼诮邮馨拷浻浾咴趦鹊拿襟w采訪時闡釋,現實中的需求常伴隨視覺信息,工具返回的結果也多是視覺化的,只有具備視覺理解能力,模型才能像人一樣操作工具、處理任務,從而極大地擴展適用邊界?!拔覀兒茉缇鸵庾R到,多模態(tài)才是模型真正成為復雜Agent的關鍵?!?/p>
在這一戰(zhàn)略邏輯下,與浦東美術館這類專業(yè)機構的深度合作,對豆包而言具有超越市場曝光的長期價值。
藝術展覽場景知識密度高、且充滿人文闡釋空間。在此處深耕,既是對模型準確性與穩(wěn)定性的測試,也是對其專業(yè)知識庫的構建。而在藝術領域靠“分辨相似展品”修煉出的視覺理解與知識組織的能力,未來也可以遷移至教育、電商、設計乃至工業(yè)質檢等更多需要精細化視覺辨別的行業(yè)。
此前,知名經濟學者、工信部信息通信經濟專家委員會委員盤和林在接受每經記者微信采訪時曾表示,AI視頻交互的使用前景非常光明,并且隨著AI眼鏡這一類符合視頻通話應用場景的新硬件逐漸升溫,AI視頻交互還有更多的可能性。
免責聲明:本文內容與數據僅供參考,不構成投資建議,使用前請核實。據此操作,風險自擔。
封面圖片來源:每經記者 李宇彤 攝
如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不希望作品出現在本站,可聯系我們要求撤下您的作品。
歡迎關注每日經濟新聞APP