12月17日至18日,由下一代互联网国家工程中心主办联合澳门科技大学共同主办的2025全球数据技术大会(GDTC)在北京举行。华为公司副总裁、数据存储产品线总裁袁远发表《构建先进数据基础设施,激活AI时代数据价值》主题演讲。
观察者网了解到,这是袁远首次以华为数据存储产品线总裁身份对外亮相,而该产品线前任总裁周跃峰已担任华为公司高级副总裁、华为云CEO。
袁远提到,中国已是全球数据大国,但数据语料建设仍面临关键挑战:我国数据留存率仅2.8%,需从技术层面解决海量数据“存不下”、存储成本高和能耗大等难题;行业高质量数据稀缺,以医疗模型为例,我国模型训练数据量只有西方领先国家的10%左右;大量城市与企业数据仍储存在“孤岛”上,数据共享率不足25%;全球年度泄露数据已达惊人的471.6亿条,给各行业带来巨大风险,数据泄露成为当前数据跨境流动的核心命题。
华为公司副总裁、数据存储产品线总裁袁远发表演讲
以下为袁远演讲全文:
各位嘉宾,大家好!今天大会的主题是“共筑智能时代的新型数据基础设施”。我想借此机会,分享一下华为在数据基础设施方面的思考与实践,希望能为产业界推进高质量数据集建设、用好AI有所帮助。
站在Agentic AI新时代,各行各业都在更加深度、全面地使用数据,使其成为AI训练与推理的语料与知识,进而创造价值。我们看到:用于AI的数据量同比增长41%;数据资源共享日益活跃,更多行业和技术企业选择进入数据市场,通过扩充数据资产的规模、精度与多样性,在智能化竞争中实现领先;高质量数据集建设提速,截至目前我国已建成超过500PB高质量数据集;AI的快速发展巩固数据要素价值地位的同时,更推动传统IT架构从“以算力为中心”向“以数据为中心”转变。
中国已是全球数据大国,但数据语料建设仍面临关键挑战:我国数据留存率仅2.8%,需从技术层面解决海量数据“存不下”、存储成本高和能耗大等难题;行业高质量数据稀缺,以医疗模型为例,我国模型训练数据量只有西方领先国家的10%左右;大量城市与企业数据仍储存在“孤岛”上,数据共享率不足25%;全球年度泄露数据已达惊人的471.6亿条,给各行业带来巨大风险,数据泄露成为当前数据跨境流动的核心命题。
依据国家数据局《可信数据空间发展行动计划(2024—2028年》的指引,应从城市、行业、企业等方面加快建设可信数据空间,释放数据要素价值。基于此,结合华为多年实践与理解,我们对数据基础设施的构建有以下建议。
首先,在城市层面,宜发挥城市枢纽作用,打造先进存力中心,推动公共数据和行业数据的汇聚、治理和可信流通,支撑城市数字经济发展。近年来,我们已与多地开展合作实践,比如:助力一些城市汇聚50PB公共数据,服务了超60家本地企业,发挥数据储备和流通价值;帮助部分城市构建高质量汽车行业数据集,支持智能网联汽车发展;并通过“聚数、治数、供数、用数”,打造了环京津数据要素产业园,有效带动地方经济增长。
其次,在行业层面,应建设数据共享协作平台,推动数据从分散利用到智能融合,让高质量行业知识库赋能生态。以某国家级育种实验室为例,我们帮助构建全国一体化育种数据基础设施,让百PB跨域数据可管、可视、可流动,依托统一数据标准和一站式数据工具链,提升4倍数据标注和模型微调效率,打造智慧育种智能体,助力农业科研创新。
最后,在企业层面,企业作为最早开始重视、挖掘数据资产的先行者,我们需助力建设AI数据湖底座,加强全域数据共享、高效管理与敏捷使用。以自动驾驶为例,通过AI数据湖整合路测、仿真、高精地图等多样数据,提供百万车辆数据高速接入、EB级数据高效管理、全球站点数据跨域流动等关键能力,让环境感知、行人避让、语音助手等多种智能体协同,保障极端条件与特定场景下行驶安全。
先进数据基础设施建设需要持续的技术创新。未来,我们将加大投入,迭代、引领AI数据湖发展方向,助力更多城市、行业、企业逐步解决收数、存数、治数、用数问题。具体而言,一方面,我们将继续完善并开源开放端到端的AI工具集,丰富我国AI工具生态,我们相信只有基于实际可获得的工具打造的智能化能力,才是长期可持续的。另一方面,依托全局数据管理技术,我们将深入研究可信数据跨域流通过程中的合规治理、安全流转与跨境审计。同时,推动数据存储技术发展,降低向量、标量等新型数据存储范式的储存成本,持续释放数据要素价值。
面对AI所带来的深刻变革,我们将始终与各方携手共进,汇聚数据力量,共同加速我国AI落地。谢谢大家!



































