专家建言:加快建设石化行业高质量数据集

2026中国石油石化企业信息技术交流大会暨油气产业数智化发展高峰论坛上记者发现“数据治理”与建设“高质量数据集”成为热词。数据是发展人工智能的基础,目前在石油石化行业中仍面临体量大但完整性不足、覆盖全但质量不高等困境,数据资源尚未得到充分利用,其深层价值有待进一步挖掘。如何使智能化转型产生切实效益?多位与会专家一致认为,全行业协同构建高质量数据集,是实现这一目标的必经之路

数据治理难却必需

“油气行业数据基础薄弱,‘有数据无质量’的问题也比较突出。”中国工程院院士刘合直指行业痛点。以勘探开发数据为例,这些数据一是标准不统一,数据的非结构化特征明显,虽然有海量数据但是准确程度不高。二是上游的数据具有小样本、多解性、不可重复性等特点。三是高质量的标注数据稀缺,投入的人力有限。

另外,石油石化行业数据涉及国家安全和商业机密,跨单位共享机制也不健全,进一步制约了数据价值的实现。

中国海洋石油集团有限公司科技与数字化部原总经理、集团公司专家单彤文对此深有体会:“目前行业内没有形成全行业数据集,各集团内部也很少真正实现跨子企业、跨业务领域的数据集中。阻力主要是体制和观念的阻碍,不是技术。需要形成有效的互利互惠平台,让业务部门和各级企业的数据资源能够提供有效支持,实现数据资源化。”

中国石油化工集团有限公司副总工程师、信息和数字化管理部总经理王子宗也表示,数据治理是信息化和智能化的基础,也是最难的部分。“从2020年起,中石化开始实施上、中、下游全业务的数据治理。我了解到华为的数据治理用了将近17年,而石油石化行业的数据广度和复杂程度只会比离散制造业更高。”他感慨道,“目前我们总部经营管理和数据治理基本完成,生产管理仍在治理中,销售电商领域基本完成,现已形成570亿条高质量行业数据,这是多年数据治理的成果。”

要建设高质量数据集

然而,数据堆在一起就叫数据集、数据质量高就叫高质量数据集吗?中国石油化工集团有限公司信息和数字化管理部副总经理蒋楠表示,这并非简单的对等关系。

在他看来,高质量数据集的定义应遵循国家标准,“具有一定主题,可以标识并可以被计算机化处理的数据集合”。“我认为其中有三个要点:一是要有主题,数据要围绕一个明确目标;二是可标识,每条数据都能被识别、定位;三是可计算机处理,必须是机器能读懂、计算的格式。”蒋楠说,“能让人工智能有明显提升的,才算高质量数据集。”

在此过程中,中国石化开启了三个“1”工程,以1套面向石化行业的高质量数据集建设方法论为指导,打造1组高质量数据集全链路工具,建设1批多模态行业高质量数据集。2025年8月,中国石化“石油化工领域高质量数据集”成功入选国家数据局高质量数据集典型案例。

中国石油集团总经理助理、首席信息官、数字和信息化管理部总经理乔辉也强调,高质量数据集的构建,是实现模型能力的基础保障。他介绍了中国石油的工程化做法:按照业务领域成立专业语料工作组,采用“四阶八步”工作法,建立“数据—模型—应用—反馈与回流”的闭环。他透露,中国石油已参编国家标准4项,研制企业标准2项、数据采集与标注规范81项,建成600TB高质量行业数据集。其中,地球物理测井、炼化时序数据集入选了国家数据局高质量数据集典型案例。

中国海洋石油集团有限公司智慧数据部副总经理(主持工作)陈溯表示,集团近年来高度重视数据治理,也先后获评国家数据局的高质量数据集和DCMM五级认证。他表示:“两年前,为了治理庞大的数据资源,我们提出并实施了‘采用分离’,将采集系统与应用系统彻底分离,一度停用了近700个系统。尽管当时付出了较大代价,但目前成效正在逐步显现。”

破解难题需多方共进

面对庞大的数据量、复杂的数据治理环境,如何破局?

针对“数据孤岛”难题,刘合提出,应在保障数据安全前提下,推动跨单位数据协同。他说:“我们需要从体制机制层面,去推动安全运输、安全存储、安全计算。否则数据出去,就会泄露商业秘密;数据不出去,我们就永远无法提升计算能力。如何建立具有保密运行机制的共有算力中心,这个问题需要我们多方共同去探索。”

刘合提到的“协同”这一关键词得到了现场的广泛响应。无论是企业内部的信息互联,还是全行业的数据集共建,都需要行业站在更高层面达成共识、共同推进。王子宗感慨地说:“我们必须认识到,人工智能的使用是必然的,而不是选择题。我们正处于历史发展过程当中,必须要打牢基础,做好‘生态建设’。”据蒋楠介绍,中石化内部就早早明确,数据治理既是技术工作也是管理手段,需要集体发力,共同支撑企业数智化转型。

值得注意的是,多位专家还强调了培养人才的重要性。单彤文表示,明确定义数据背后的属性需要大量人力、脑力和智力的投入。王子宗也认为,队伍建设是与能力建设、生态建设同等关键的要素。“既懂人工智能、又懂信息化、又懂专业技术的人才非常短缺。”他说,为此中石化建立了“域长负责制”,将全集团分为20个域和32个分域,由域长负责业务流程标准化、数据治理、深化应用及人工智能相关工作。该机制已运行四年,每个季度召开全集团局长会,由党组领导亲自参加半年和年度会议,自上而下推进企业数智化转型见行见效。

相关推荐

河北力促化工产业创新绿色发展

实施“人工智能+化工”行动,推进56个项目建设日前,记者从河北省工业和信息化厅获悉,河北将打造节约集聚、创新发展的绿色化工产业,实施“人工智能+化工”行动等推进产业数字化发展,推动科技创新关键技术攻....

2026-05-18     中化新网

恒逸石化:拟投资建设年产240万吨煤制乙二醇项目

恒逸石化5月15日晚间发布公告,子公司恒逸能源科技(吐鲁番)有限公司(以下简称“恒逸吐鲁番”)拟投资建设年产240万吨高品质纤维用煤制乙二醇项目。项目预计总投资257亿元,建设地点位于吐鲁番经济开发....

2026-05-18     中化新网

磷酸铁锂行业掀起新一轮扩能潮

  近期国内磷酸铁锂行业掀起新一轮扩能潮,先后有兴发集团、盟固利、当升科技、容百科技、新洋丰发布公告宣布拟投资建设磷酸铁锂项目,总产能达百万吨。

2026-05-18     中国化工报

匠心筑梦 智领未来——记全国五一劳动奖章获得者胡清

  在新时代产业报国的征程上,一位“90后”青年企业家正以金融智慧与数字远见,引领传统化工企业迈向高质量发展的新境界。他就是胡清,今年全国五一劳动奖章的获得者,现任湖北祥云(集团)化工股份有限公司党委...

2026-05-18     中国化工报

福海创开办学习教育读书班

  近日,福建福海创石油化工有限公司党委举办树立和践行正确政绩观学习教育读书班,深入学习贯彻习近平新时代中国特色社会主义思想,引导党员干部牢固树立和自觉践行正确政绩观。

2026-05-18     中国化工报