數(shù)據(jù)“煉油”難點何在?


中國產(chǎn)業(yè)經(jīng)濟信息網(wǎng)   時間:2026-04-14





  近日,圍繞工業(yè)高質(zhì)量數(shù)據(jù)集建設(shè)的政策探討與產(chǎn)業(yè)行動持續(xù)升溫。由工業(yè)和信息化部牽頭,龍頭企業(yè)、行業(yè)協(xié)會深度參與,一場以工業(yè)數(shù)據(jù)筑基為目標(biāo)、面向人工智能賦能的高質(zhì)量行業(yè)數(shù)據(jù)集建設(shè)先行先試正在悄然鋪開。其目標(biāo)直指一個核心:如何將海量的工業(yè)數(shù)據(jù)提煉為精準(zhǔn)可用的高質(zhì)量數(shù)據(jù),真正讓數(shù)據(jù)資源轉(zhuǎn)化為產(chǎn)業(yè)升級的核心資產(chǎn),成為發(fā)展新質(zhì)生產(chǎn)力的關(guān)鍵要素?


  大數(shù)據(jù)不等于高質(zhì)量數(shù)據(jù)集


  何為高質(zhì)量數(shù)據(jù)?國家數(shù)據(jù)局指導(dǎo)發(fā)布的《高質(zhì)量數(shù)據(jù)集建設(shè)指引》指出,高質(zhì)量數(shù)據(jù)是指經(jīng)過采集、加工等數(shù)據(jù)處理,可直接用于開發(fā)和訓(xùn)練人工智能模型,能有效提升模型表現(xiàn)的數(shù)據(jù)的集合。


  簡單的定義卻透露出了高質(zhì)量數(shù)據(jù)的兩個關(guān)鍵特點。其一,它是在傳統(tǒng)數(shù)據(jù)基礎(chǔ)上經(jīng)過精煉得到的,并非數(shù)據(jù)規(guī)模競賽,而更注重數(shù)據(jù)質(zhì)量的深耕;其二,人工智能是推動高質(zhì)量數(shù)據(jù)集建設(shè)的核心動力,經(jīng)過處理的數(shù)據(jù)必須可供人工智能模型使用。


  蘇州核數(shù)聚信息科技有限公司CTO胡楠以工業(yè)場景為例,進一步解釋稱,過去制造行業(yè)確實積累了海量數(shù)據(jù),但那只是大數(shù)據(jù),不等于高質(zhì)量數(shù)據(jù)集,根本無法滿足工業(yè) AI的深度賦能需求。他認(rèn)為先行先試的核心任務(wù),就是把過去的“大數(shù)據(jù)”通過深度加工,轉(zhuǎn)化為能真正驅(qū)動AI的高質(zhì)量數(shù)據(jù)集,讓數(shù)據(jù)資源真正成為產(chǎn)業(yè)發(fā)展的核心資產(chǎn)。


  胡楠向《中國電子報》記者表示,具體來看,傳統(tǒng)的大數(shù)據(jù)采集和現(xiàn)在要做的高質(zhì)量數(shù)據(jù)集,是兩條完全不同的技術(shù)路徑,有著本質(zhì)區(qū)別,二者更像是原油和汽油的關(guān)系。他指出,傳統(tǒng)大數(shù)據(jù)的技術(shù)路徑是“先收集,后挖掘統(tǒng)計”,是先將數(shù)據(jù)堆積起來,再通過統(tǒng)計分析去挖掘價值,這更像是“開采原油”,量大但雜質(zhì)多。高質(zhì)量數(shù)據(jù)集的路徑則是“先算法,后數(shù)據(jù)”,必須先明確AI算法的應(yīng)用場景和需求,然后為了訓(xùn)練這個算法,去定向、精準(zhǔn)地收集和構(gòu)建數(shù)據(jù),由此得來的才是為算法“量身定制”的精準(zhǔn)原料,也只有這種從“原油”中精煉出的“汽油”才能驅(qū)動引擎。


  那么,如何判斷一個數(shù)據(jù)是否高質(zhì)量?相較傳統(tǒng)大數(shù)據(jù),對高質(zhì)量數(shù)據(jù)的要求一方面增加了諸多新的評價指標(biāo),在準(zhǔn)確性、完整性、一致性、時效性等基礎(chǔ)指標(biāo)之余,還涉及數(shù)據(jù)的多樣性、真實性、合規(guī)性等維度,且不同行業(yè)的關(guān)注點存在細(xì)微差別。例如,工業(yè)制造領(lǐng)域就尤其關(guān)注數(shù)據(jù)內(nèi)容的真實性、多樣性和標(biāo)注準(zhǔn)確性。另一方面,特別強調(diào)數(shù)據(jù)集在模型訓(xùn)練和應(yīng)用中的實際效果,即對模型性能的提升程度。


  工業(yè)高質(zhì)量數(shù)據(jù)集建設(shè)并非易事


  數(shù)據(jù)顯示,截至2025年年底,全國已建成超10萬個高質(zhì)量數(shù)據(jù)集,總體量超過890PB,高質(zhì)量數(shù)據(jù)集建設(shè)前景廣闊,但在工業(yè)場景仍面臨諸多現(xiàn)實挑戰(zhàn),且遍布采、集、用環(huán)節(jié)及數(shù)據(jù)標(biāo)準(zhǔn)層面。


  工業(yè)制造領(lǐng)域的數(shù)據(jù)形態(tài)多樣,主要包括時序數(shù)據(jù)、圖像、圖紙文檔、仿真數(shù)據(jù)等。中國科學(xué)院自動化研究所副總工程師、武漢人工智能研究院院長王金橋在接受《中國電子報》采訪時指出,在數(shù)據(jù)“采”的環(huán)節(jié),工業(yè)場景中的數(shù)據(jù)往往來自不同設(shè)備、不同協(xié)議、不同模態(tài)——視覺、聲紋、振動、溫度、時序信號等交織在一起,多模態(tài)、多源異構(gòu)數(shù)據(jù)的采集與對齊難度較大,行業(yè)內(nèi)還缺乏成熟的自動化采集工具和標(biāo)準(zhǔn)化接口。


  在數(shù)據(jù)“集”的環(huán)節(jié),王金橋認(rèn)為,難點在于標(biāo)注成本高、專業(yè)性強、長尾場景覆蓋難。他特別強調(diào),工業(yè)場景中真正有價值的往往是那些“小概率、大影響”的長尾事件,這類數(shù)據(jù)極度稀缺,靠真實采集難以滿足模型訓(xùn)練的需求。


  在數(shù)據(jù)“用”的環(huán)節(jié),數(shù)據(jù)安全與共享的矛盾突出。工業(yè)企業(yè)普遍對數(shù)據(jù)安全高度敏感,擔(dān)心核心工藝數(shù)據(jù)、產(chǎn)線數(shù)據(jù)外泄。在“不敢共享”的顧慮下,跨企業(yè)、跨行業(yè)的數(shù)據(jù)流通難以實現(xiàn)。他表示,行業(yè)需要繼續(xù)探索如何在保障數(shù)據(jù)主權(quán)的前提下實現(xiàn)“可用不可見”。


  最后,在標(biāo)準(zhǔn)建設(shè)層面,王金橋表示,行業(yè)數(shù)據(jù)集的建設(shè)仍處于“各自為戰(zhàn)”的狀態(tài),缺乏統(tǒng)一的標(biāo)準(zhǔn)規(guī)范,要建立統(tǒng)一的數(shù)據(jù)格式、質(zhì)量分級、評測體系,推動形成規(guī)模效應(yīng)和復(fù)用價值。


  值得注意的是,部分?jǐn)?shù)據(jù)集在建設(shè)時還存在與工業(yè)場景嚴(yán)重脫節(jié)的問題,脫離企業(yè)生產(chǎn)的實際需求,即便數(shù)據(jù)質(zhì)量達標(biāo),也難以適配具體工藝和真實場景,無法真正賦能AI模型、提升生產(chǎn)效率,并可能造成數(shù)據(jù)資源和建設(shè)成本的浪費。


  針對上述問題,業(yè)內(nèi)人士普遍認(rèn)為,各方應(yīng)各司其職,協(xié)同助力高質(zhì)量數(shù)據(jù)集發(fā)展。鼎捷數(shù)智執(zhí)行副總裁劉波表示,希望平臺機構(gòu)以可落地的智能工具為核心,打造全鏈路數(shù)據(jù)治理能力;龍頭企業(yè)開放場景與數(shù)據(jù)資源,引領(lǐng)智能治理實踐;中小企業(yè)主動擁抱輕量化智能工具,低成本實現(xiàn)數(shù)據(jù)質(zhì)量提升。


  多個場景有望跑出“標(biāo)桿”


  京東工業(yè)研發(fā)相關(guān)負(fù)責(zé)人向《中國電子報》記者表示,工業(yè)領(lǐng)域數(shù)字化轉(zhuǎn)型具有“一米寬、百米深”的特點,“一米寬”即行業(yè)是由若干業(yè)務(wù)邊界清晰的場景組成,“百米深”即每個場景背后都蘊含了大量的工業(yè)知識和機理,每個場景的數(shù)字化都涉及不同的工具、軟件、技能、方法,具有很強的專業(yè)性和復(fù)雜度。這也決定了工業(yè)高質(zhì)量數(shù)據(jù)集建設(shè)需立足場景、深耕細(xì)作。


  工業(yè)和信息化部在相關(guān)通知中明確提出“六個一批”目標(biāo),并將鋼鐵和汽車行業(yè)視為工業(yè)高質(zhì)量數(shù)據(jù)集先行先試的重點領(lǐng)域。業(yè)內(nèi)人士普遍認(rèn)為,除此之外,還有多個領(lǐng)域同樣具備先行先試的良好基礎(chǔ),且呈現(xiàn)出鮮明的共性特征,同樣有望成為高質(zhì)量數(shù)據(jù)集建設(shè)的重要突破口。


  王金橋指出,數(shù)字化基礎(chǔ)較好、痛點場景明確、數(shù)據(jù)價值密度高的行業(yè)有望率先突破,如電子信息制造業(yè)、裝備制造業(yè)、生物醫(yī)藥與醫(yī)療器械、能源與電力及低空經(jīng)濟相關(guān)產(chǎn)業(yè)。


  劉波則認(rèn)為,裝備制造、電子信息、工程機械、五金加工、新材料等行業(yè)可以先行,他指出,這些行業(yè)具備三大特征,第一,產(chǎn)業(yè)鏈條長、場景復(fù)雜度高、生產(chǎn)數(shù)據(jù)密集,企業(yè)生產(chǎn)過程中產(chǎn)生的經(jīng)驗數(shù)據(jù)、記錄數(shù)據(jù)、參數(shù)數(shù)據(jù)等海量數(shù)據(jù),為數(shù)據(jù)集建設(shè)提供了豐富的原始素材;第二,數(shù)字化改造起步早、設(shè)備聯(lián)網(wǎng)率高,已形成較為豐富的數(shù)據(jù)積累與應(yīng)用實踐,部分龍頭企業(yè)已實現(xiàn)IT 與OT數(shù)據(jù)的初步貫通;第三,對質(zhì)量管控、設(shè)備運維、供應(yīng)鏈協(xié)同、能耗優(yōu)化等智能化的需求也十分迫切,龍頭企業(yè)帶動效應(yīng)明顯。


  然而,試點推廣過程也需警惕短期效應(yīng),兼顧長遠(yuǎn)發(fā)展。亞信科技智能制造專項負(fù)責(zé)人劉長水指出,試點項目應(yīng)警惕“盆景化”風(fēng)險,防止停留在“做示范”層面。劉波也表示,先行先試中還存在多方協(xié)同難、試點經(jīng)驗復(fù)用難、投入產(chǎn)出機制不清晰等現(xiàn)實困難,制約著數(shù)據(jù)集規(guī)?;ㄔO(shè)與價值釋放。


  從產(chǎn)業(yè)鏈全維度來看,工業(yè)高質(zhì)量數(shù)據(jù)集的建設(shè)并非單一主體的獲利,而能帶動整個工業(yè)生態(tài)的協(xié)同發(fā)展。北京中科匯聯(lián)科技股份有限公司董事長游世學(xué)認(rèn)為,高質(zhì)量數(shù)據(jù)集建設(shè)有利于加速工業(yè)數(shù)據(jù)標(biāo)準(zhǔn)化、價值化進程,實現(xiàn)數(shù)據(jù)匯聚、治理、開放與共享。


  上下游企業(yè)都有望借此迎來發(fā)展機遇。劉長水表示,對數(shù)據(jù)服務(wù)企業(yè)而言,隨著數(shù)據(jù)集建設(shè)的推進,數(shù)據(jù)咨詢、數(shù)據(jù)治理、數(shù)據(jù)標(biāo)注等專業(yè)服務(wù)需求將大幅增長;工業(yè)軟件與平臺廠商將迎來需求爆發(fā),相關(guān)行動的推進將催生一系列行業(yè)數(shù)據(jù)可信互聯(lián)平臺、數(shù)據(jù)資源庫的建設(shè)需求;大模型與工業(yè)智能體廠商垂域大模型也將受此影響加速落地;制造業(yè)企業(yè)則可能通過數(shù)據(jù)賦能實現(xiàn)提質(zhì)、降本、增效。(記者 陳存)


  轉(zhuǎn)自:中國電子報

  【版權(quán)及免責(zé)聲明】凡本網(wǎng)所屬版權(quán)作品,轉(zhuǎn)載時須獲得授權(quán)并注明來源“中國產(chǎn)業(yè)經(jīng)濟信息網(wǎng)”,違者本網(wǎng)將保留追究其相關(guān)法律責(zé)任的權(quán)力。凡轉(zhuǎn)載文章及企業(yè)宣傳資訊,僅代表作者個人觀點,不代表本網(wǎng)觀點和立場。版權(quán)事宜請聯(lián)系:010-65363056。

延伸閱讀

?

版權(quán)所有:中國產(chǎn)業(yè)經(jīng)濟信息網(wǎng)京ICP備11041399號-2京公網(wǎng)安備11010502035964