关于我们

ABOUT US

标准化

中国工程院院士邬贺铨:标准数字化是大势所趋

2022-05-12 19:22:18 阅读:

导读
《国家标准化发展纲要》提出,要“推动标准化工作向数字化、网络化、智能化转型”。市场监管总局副局长、国家标准委主任田世宏在全国标准化工作会议的报告中提出“积极推进机器可读标准工作,探索数字化条件下国家标准管理新机制。”“加强标准数字化技术研究,把握前沿科技发展趋势,增强标准化基础理论储备。”标准数字化成为今后标准化工作的重要内容之一。为此,本刊近日专访了中国工程院院士、国家标准化专家咨询委员会主任邬贺铨,请他分享对标准数字化的理解和建议。
 
标准数字化能为我们带来什么

第一,首先是标准的呈现形式的变化。我们知道标准过去基本上都是文本,那么未来要让机器可读,标准文本就要变革。机器的可读化首先是机器可检索,即从机器可以发现和找到这个标准。然后是机器可读,也就是把标准的内容能够读出来。进一步发展到标准的可理解,机器能理解标准的内涵,可交互,最后可以去执行。机器可检索相对容易,机器可读就有困难了。

人工智能的技术发展都可以通过语义理解把中文变英文,英文变中文,那机器可读有什么困难呢?首先标准是专业的,人工智能的模型和算法是要根据处理的任务经过大量的数据训练才能优化,这种训练不可能覆盖所有专业,何况人来阅读标准都有专业门槛问题。其次标准里面包含公式、图表、曲线等非结构化数据,计算机一般比较难理解非结构化的内容,在这些方面的标准可视化和可读化并不简单,还要做不少工作。

如何做到机器可读,可以先从标准的描述语言入手。现在有人用XML的语言来描述标准,XML是可扩展的标记语言,是一种可以描述数据对象的计算机的语言,而且它比一般的数据语言多了一个包含对这个数据对象的解释,这就降低了计算机对数据的理解难度。

要做到机器可读还可以引入程序来描述标准,比如说有些算法可以直接成为标准,这就引入到标准数字化表现形式的另外一方面——开源软件和开源软件的应用。《国家标准化发展纲要》提到的标准数字化,涉及机器可读、开源软件两大方面。开源软件现在在开源社区里用的比较多,它是一种软件,或者说它是把一个技术规范以一种算法来描述,计算机就便于执行,显然开源也是标准数字化的一种表现形式。不过符合以开源软件方式表达的标准还是很有限的。

标准数字化不仅在于标准的表现形式,还表现为标准化方法的数字化,让数字化贯穿标准化的全生命周期,便于标准的制定、实施和推广应用。首先通过开源众包加快标准制定和修订的过程。过去我们制定标准习惯用会议和函审的方式,现在我们可以用开源众包的方式即建立一个“在线协作写作”平台让更多人参与标准制定的过程,在数字化环境中进行标准协作开发,能够在数周时间内形成可交付成果,显著缩短标准制定周期。标准按照常规的办法,几年才修订一次,而开源可以快速迭代,动态更新,加快标准的制修订。这里会涉及到一些管理体制的问题,未来国家标准能否允许这样做还需要研究,但团体标准可以探索,大家可以快速地参与到开源平台上,只要同意了就能更新,这适用于新兴或快速演进技术领域的标准。

第二,易于发现标准制定的背景及与知识产权等的关联。我们可以通过人工智能和大数据的技术,很好地将国际标准、国家标准、团体标准快速进行对照,找出标准间的引用关系,发现哪些内容是一致的,哪些是不一致的,国际标准的采标率到多少,适用范围有什么区别?还可以在术语、技术体制、规范、测试方法、产品要求等系列的技术标准中发现有无矛盾或需要改进以便表述更严谨之处。标准数字化还方便将标准与知识产权关联,包括易于检索到在标准制定过程中相关方对知识产权的声明,以及专利持有人是否承诺遵守FRAND(公平、合理、无歧视)原则对专利实施人许可,或有关知识产权机构对该专利是否授权等,既可知道某一标准涉及多少标准必要专利(SEP),也可识别某一专利是否SEP。总之,标准数字化结合新一代信息技术可以很好地把标准的一些细节搞清楚。

第三,助力对标准实施的监管。因为标准是数字化的,监管部门能从实施标准的行为数据上发现它是否符合标准,容易对这种标准实施的合规性进行检查。过去让政府主管部门去读那么多标准是有困难的,但是如果我们做的事情有数据留痕,根据这些可以跟标准来比对,就能发现这些工作是否符合标准,就可以更好地进行社会的治理,这也是标准数字化希望能够实现的一个好处。

 

第四,标准知识的快速检索。一个标准文本往往很长,在一个执行实施的项目里,可能只是用到这个标准的某一点或某一方面,并不一定涉及全部标准,但是实施方需要将整个标准从头到尾读一遍,有些工作涉及到多个标准,把所有有关的标准都读起来,可能就比较难。为什么会导致现在有些工作没有很好地符合标准,实际上是觉得标准太多了,不知道这个事情跟哪个标准有关,所以就导致了执行可能不符合规定。现在通过机器可读无需下载阅读大量的标准文本即可智能推送,实现快速的知识检索,甚至通过机器直接编译成工作指令或规则,可精准地指导实施。标准数字化不仅仅是对标准制定部门和起草单位例如标准化技术委员会受益,也有利于标准的监管部门如国家标准化管理委员会,同时对我们实施的部门也都很有帮助。

  

任重道远

标准数字化工作任务艰巨,需要有长远规划有序推进,当前需要从以下几方面做起。

一是当务之急需要一个关于机器可读标准的标准。明确机器可读的要素以及用什么技术来支撑机器可读。关于标准描述语言,前面提到XML可扩展的标记语言,也有人提出用JSON语言,未来可能还会出现别的格式的语言,需要从中优选,如果多语言并列的话还要解决兼容问题。对标准中的公式、算法、程序、流程图、电路图、曲线图等都要有一个统一的机器表示形式。总之,对机器可读标准中最基础的元数据需要先有规定,国标委部署了中国标准化研究院来做这方面的研究。中国标准化研究院、浙江省标准化研究院等也分别开过一些研讨会,探讨怎么做标准数字化的基础工作。

 

现在ISO和ITU以及国外一些标准化机构都在研究标准数字化,但到目前为止国际上也还没有出台一个大家公认的机器可读标准的标准,这方面起步还不那么容易。不过在个别领域已经开始探索,出国旅行都要护照签证,过去是靠边防的人员来看,现在可以让机器来读。2017年出现了机器可读护照的国家标准,包括机器可读护照、机器可读签证和机器可读旅行文件三个部分。现代的护照本内有芯片,就像我们国内的二代身份证,机器读身份证和护照实际上是在读芯片,把芯片的信息读出来跟预存的信息对比。机器可读护照的模式难以用到机器可读标准,将芯片嵌入到每一个标准文本中的方法难以推广。

二是标准可读可理解需要建立相应的专业平台来支撑。标准基本都是专业性的,对这些专业的理解不是一般的人工智能就能胜任,需要经过训练。利用大数据技术从海量的标准文本中建立知识图谱,构建标准知识“本体”,发现机器可读的规律。中国电子技术标准化研究院正在研究标准知识图谱的规范,这也是一个基础的研究,目前还未形成可发布的标准。不过标准覆盖的领域非常多,仅有通用的知识图谱还是不够的,需要分专业领域来开发相应的标准知识图谱,开发和建设一批针对专业领域标准机器可读的云平台,例如机械、电子、生物、化工、冶金、建筑等行业的标准数字化技术平台。这些工作需要国家标准化管理部门统筹协调,责成有关部门开发建立这样的平台,帮助促进标准数字化的应用。据了解我国国标委曾经部署在航空专业领域探索机器可读标准的研究与可能的技术支撑。

三是人才培训。我们原有写标准的人应该说很多都是老手,知道怎么写标准,用标准的语言都比较简洁,而且很少歧义。但原有的标准化老手未必胜任编写用XML等语言来描述的机器可读标准,通常的IT的专家也并不熟悉标准化的规则与行业的技术。既要熟悉专业,还要熟悉原来标准编写的规则,还需要熟悉使用机器可读的技术,这样的人才绝对是稀缺的。标准数字化的人才培养问题需尽早提到议事日程。

四是建立标准数字化的管理规范。标准数字化是个新问题,涉及到标准化全生命周期的管理,我们需要针对性地修改标准化相应的规定和流程,否则标准机器可读化这种文本形式及其产生方式的合法性就是个问题。标准化具有很强的国际性,标准数字化的研究需要加强国际合作。另外,标准数字化不能一哄而起,需要有规划做好试点再推开,机器可读标准的最有效应用场景是生产现场的装备按标准自动执行流程,这些领域的标准机器可读化可以先行推进。现有这么多存量的标准都要变成机器可读其工作量很大,需要从长计议。总之,标准数字化对于标准化发展是难得的机遇,对从事标准化研究、标准制定和实施及标准化管理部门也是新的挑战。