百年清华

朱高峰院士:“东数西算”不可忽视的两个问题

2022-06-10 | 朱高峰(1951—1952物理) | 来源 《中国科学报》2022-05-30 |

今年2月,国家发展改革委等部门联合印发文件,同意在京津冀等8地启动建设国家算力枢纽节点,并规划了张家口集群等10个国家数据中心集群。至此,东数西算工程正式全面启动。

“东数西算”有了总体布局设计并开始行动。因此,有必要对其概念内涵予以清晰科学的理解,以免再现一哄而起的局面。

“东数西算”属于信息领域范畴,目标是形成一张算力网。当前我国已建成相当发达的现代信息网,比如通信网、互联网,且形态、技术手段多样,发展速度远远快于其他领域,为什么又要提出建算力网络呢?

这要从流通网络和数据谈起。在现代社会中,实现交换和分配就需要流通。流通不仅在点与点之间,而是面上多个点互相之间进行,因此需要构建网络,以便于经济有效、高效通畅地实现多点与多点之间的流通。

网的主要功能是流通,有针对实物的运输网,针对能量的电力网,而针对信息的就是通信网。当然,信息流通中大量存在个体间非经济范畴如情感、思想的交流,同样需要在流通网络中实现。

物体、能量和信息除了流通外,还需要加工变换等以满足人们的需要。比如,信息的加工是在计算机或具有计算功能的各种设备中实现的。

由于信息技术的快速发展,人们现在除了个人或集体自己产生的信息外,可以从各种社会活动中提取各类信息,例如道路上的交通信息,从若干监测点获取的温湿度及其变化情况、气压、气流情况等天气信息,以及商店人流、各类商品销售情况等信息。为了便于收集处理大量的信息,人们用统一的电子格式来表达,这就是数据。

近年来,人们从一大类看起来互不相干的数据中,寻找其间的关联因素,发现这些数据之间有关联,但并非因果关系,而是数学上称之为相关关系,由于此类数据量较大,称之为大数据。例如将一段时间内通过某一路段的车辆或行人数,一段时间内进入某一商店购买某类商品的人数,以及组成此人群的性别、年龄结构等数据集中,从其中找到的关系可以作为道路交通管理或商品营销的一种依据。

而这种对各类数据加工处理、从中提取有用结果的能力即称为算力。大数据被发现以来,人们对算力的需求大幅增长。

此前,信息网络的主要功能为信息流通,辅之以短时存储,以及使信息变换形式以适应在网络中传输要求的功能,这些功能的具体实现可以综合到通信网络中。这是因为,那时对复杂数据的加工处理往往是由单个计算机,包括高性能计算机或小范围的计算机群来实现的,数据量和处理量相对而言均不大。也因此,没有单独明确提出算力及算力网的概念,只明确了计算机或其组成的群结构具有数据处理能力。

大数据出现后,由于对数据处理能力的要求大幅增长,且有些数据集来自于一定的地域范围,因此需要形成有别于通信网的数据处理的专用网络,即算力网络。

算力网络的核心是数据处理设备,相应地要配置数据收集传送通道,以收集来自不同地域的数据,并要配备相应的数据存储设备,以及对加工获得的有用结果传送到使用目的地的传送通道。

多个数据收集、传递、处理、应用与存储这样的单元组合在一起就形成算力网络,算力网络根据地域覆盖范围可形成区域网和全国网,之间可形成层级关系,也可按不同应用领域形成专用网。

回到“东数西算”工程。根据我国的实际情况,人口密度、人类活动、各种数据资源以及数据应用市场在东部更集中,中部次之,西部地域更次之。既然数据资源和应用市场相对密集于东部,相应地处理也应主要在东部,为何提出“东数西算”,即东部的数据送到西部计算处理,然后再把结果送回东部应用呢?

“东数西算”与“西煤东运”“西电东送”有一致性,也有差异性。

相同的是,它们都是从资源密集地把资源送到相对稀少地加工,不同的是加工后成品的处置问题。

对于物品和能量,资源所在地与主要应用所在地不同,加工地也可有不同选择。由于物品加工大多需要较复杂的技术和较高技术水平的人力,因此较多的情况下将原材料从西部产地运到东部加工,然后成品大量在东部使用或出口,因此物流网络也形成原料和成品的不同网络。能量则由于能源的不同形式,其利用方式也不同,如水能需要就地实现,然后传送至需能地区,而长距离传递主要方式是用电,因此就需要从水能丰富的西部向需要大量能量的东部实行西电东输。

而信息具有特殊性,它可以大量复制,因此加工后的数据一般可存储在加工处,而只是在使用时才传输到使用处。之所以要实施“东数西算”工程,主要有两个因素,一是集中的数据加工/处理中心需要占用较大的物理空间,即土地和建筑,需要较大的能耗。而东部的土地已经成为稀缺资源,同时能耗成本比西部高出不少。此外,数据中心自动化程度很高,所需人力相对较少。二是加工后的数据虽然要大量返回东部使用,但数据作为信息可大量复制,近乎零成本。所以,数据送回东部并非实物返回,而是只选择所需要的数据在需要时以复制形态返回,原数据仍保存在西部的数据中心,继续可按需随时向不同地点输送,因此,东数西算在原则上是可行的。

但原则上可行并不意味着怎么做都行,我们需要重视一个问题:数据长距离传输成本。一方面数据可以近零成本大量复制并不等于可以无成本的任意传输,另一方面,数据传到某处实时使用,与先存储以备之后使用是两回事,存储是需要成本的。

信息网络组成中主要问题之一,就是传输成本和处理成本的相对关系问题。近年来,由于处理成本(即计算机成本)随着集成电路的摩尔定律不断下降,传输成本随着光纤定律下降,但由于光纤成本下降速度比集成电路成本快,传输在网络成本中的相对比重也一直在下降,但下降并不等于零成本。

在“东数西算”工程中,由于是以增加传输量来节约数据加工成本的,因此,必须根据具体情况对成本进行详细分析和具体设计。然而,目前尚未见到对此问题的分析,甚至很少提到。

过去的教训要吸取。比如“云计算”概念刚提出时,人们认为把各个点上的小规模数据处理和存储集中到一个点即云中,可以发挥规模效应,省去大量设点的成本,而并未认真考虑传输成本、信息保密等问题。也因此,后来又提出并推行了边缘计算,大量分散的边缘计算和集中的云计算共同组成一个相对较为合理的体系。

数据量的问题也应得到重视,数据量并非越大越好,应以够用为原则,且在满足目标情况下越小越好,这与节材节能意义相通。此外,相关关系类的数据中有用成分比因果关系类数据要少得多,因此,设计算力网络时,要对所处理的数据种类和数量进行实事求是、合理的预估。

最后,从全国来看,数据处理网络的组成、不同地区的需求各有差异,对全国性、地区性、行业性的数据需求、集中程度也不同,比如同是东部地区,京津冀、长三角、珠三角情况并不一样,此外各地对数据中心的建设、维护能力也不同,要考虑人力资源的情况。

因此,在实际操作中,需要仔细分析考虑,对已有一定实践的如贵州的数据中心建设等应认真总结,吸取应有的经验和教训,推动我国的数据事业更好更顺利地发展前进。



相关新闻

  • 142017.12

    邓稼先的两个手指

    邓稼先伸出两个手指,杨振宁猜说20万、2万、2千,均被一一否定。邓稼先说,20元。

  • 082022.08

    薛其坤院士:关于研究的三个层次

    近日,中国科学院院士、南方科技大学校长薛其坤与部分“科学探索奖”获奖人、南方科技大学青年学者,以“关于研究的三个层次”为题,分享了自己在科研道路上的心得与经验。他鼓励青年科学家要不畏挫折失败,坚定冲击科学前沿问题的理想与信念,勇攀科学高峰。薛其坤在“科学探索奖”跨学科交流活动中与青年学者做分享以下为精选的分享内容在今天这个非常温馨的学术交流氛围中,我想从自己熟悉的三个领域来分别谈谈关于研究的三...

  • 012022.06

    朱高峰:深研工业发展 躬身传道授业

    “路漫漫其修远兮,吾将上下而求索!”作为我国杰出的通信技术与管理专家,今年已是87岁高龄的中国工程院院士朱高峰依旧胸怀家国,用毕生的学识、经验和独特的视角贡献着自己的力量。他不仅深研工业发展,多年笔耕不辍,而且心系人才培养,躬身传道授业,得到社会各界的广泛赞誉。5月30日,朱高峰又荣获第十四届光华工程科技奖成就奖。“朱院士获此殊荣乃实至名归。”在接受记者采访时,来自中国工程院不同学部的院士们都表达了...

  • 062019.03

    “与祖国相关的两个口号,我做到了!”

    我是一名结构工程师,一辈子都在和土木工程打交道。记得当年我在清华大学读书时,有两个口号很响亮很深入人心,一个是“为祖国健康工作50年”,一个是“祖国的....

  • 012017.06

    张钹院士:人工智能当前最大问题,不可解释和不可理解

    当前以大数据与深度学习为基础的人工智能存在的最大问题是:不可解释和不可理解,就事论事,缺乏推广能力,遇到新的情况一筹莫展。

  • 152014.08
  • 152022.07

    徐叙瑢院士逝世

    7月14日电 中国共产党党员、中国科学院院士、北京交通大学教授徐叙瑢同志,因病医治无效,于2022年7月12日在北京逝世,享年100岁。徐叙瑢,1922年4月23日出生于山东济南,1941年至1945年就读于西南联合大学物理系。1946年至1951年间,任教于北京大学物理系。1951年被中国科学院派往苏联科学院列别杰夫物理研究所深造,在苏联科学院获物理数学副博士学位。回国后,先后在中国科学院长春物理研究所、中国科学院长春分院、中国科学...

  • 232021.04

    中国工程院院士王恩东:“智算”时代计算产业面临三大挑战

    “‘十四五’时期,计算需求将呈指数级增长。”中国工程院院士、浪潮集团首席科学家王恩东近日在江苏苏州出席“浪潮数据中心合作伙伴大会2021”时表示,进入智慧时代,计算技术、产品与产业面临多元化、巨量化、生态化三大挑战,计算产业格局有望重塑。当前,AI技术渐趋成熟,无人农场、智能农机、智慧农业等改变着延续上千年的农业生产方式;智能工厂让生产效率显著提升;医疗机器人在抗击新冠肺炎疫情中大显身手;无接触送货...

  • 272022.12

    沉痛悼念卢强院士

    著名电气工程科学家、教育家,现代电力系统非线性控制学科的开拓者和奠基人,中国科学院院士、清华大学电机工程与应用电子技术系卢强教授,因病医治无效,于2022年12月23日3时52分在北京逝世,享年86岁。 卢强教授1936年5月19日出生于安徽芜湖,1954年考入清华大学电机系,1964年研究生毕业后留校任教,1991年当选中国科学院学部委员(院士),2006年当选瑞典皇家工程科学院外籍院士。曾任第八、九、十届全国政协常委,第八、九...

  • 152010.10

    《我们两个》

    作品编号:A09作者姓名:Goran Cpajak 作者国籍:Serbia(塞尔维亚)设计说明: 作品表现夫妻之间互补的关系,二者紧紧相依,彼此拥有,体现了信任与支持,又是各自的独特性。