——来自2020人工智能与电力大数据论坛的智慧共享
11月11—12日,由中国电力发展促进会(以下简称“电促会”)和国家电网有限公司大数据中心联合举办的“2020人工智能与电力大数据论坛”在京召开。
11日上午,百度知识图谱部的主任研发架构师宋勋超就《知识图谱及其在电力业务中的应用》在论坛现场做了精彩的主题演讲。

百度知识图谱部的主任研发架构师宋勋
演讲实录全文如下:
各位专家,各位领导,各位电力行业的同仁,大家早上好。我是来自百度知识图谱部的主任研发架构师宋勋超,很荣幸能够在今天代表百度参加我们人工智能与电力大数据论坛。我今天汇报演讲的题目是从数据到知识,数据智能化的升级之路。
我们人类发展到现在,已经经历了三次科技革命。第一次科技革命将人类带入了机械化时代,第二次科技革命将我们带入了电气化时代,第三次科技革命是信息化时代的科学革命。
目前,我们正处在第4次科技革命正在兴起的时候,第4次科技革命其实就是人工智能的科技革命,人工智能的高速发展,已经为新一轮的产业变革提供了重要的驱动力量。人工智能技术包括以语音、图像、视频、ARVR等为核心组成的感知层技术,以及以语言和知识为核心的认知技术。语言和知识技术是人工智能的核心,它能够像让机器像人类一样去掌握知识,理解语言,对于人工智能的发展至为重要,同时也是我们未来要实现通用人工智能所必须要具备的一个必要条件。
为什么这么说呢?让我们的让我们来简单的回顾一下人工智能的发展和历程。在人工智能接近60年的发展历程里,我们一共经历了两代的发展,目前正处在第三代的一个发展期。
第一代的人工智能,我们称之为符号主义的人工智能。我们知道人工智能的三驾马车分别是数据、算力和算法,在这个阶段,人工智能依赖的是专家的经验和知识来去进行显示的符号表示和逻辑推理,取出来模拟人类的一些智能行为,去解决一些推理规划和决策类的问题。
一个具有代表意义的系统是IBM的国际象棋程序深蓝,那么这个国际象棋程序在1997年打败了国际象棋大师卡斯帕罗夫,然后我们认为第一代人工智能存在着一些质的缺陷,例如专家知识稀缺昂贵,因为这一代人工智能系统,它系统里面所承载的各种各样的知识往往是需要去用专家的能力去人工构建的。另外,这一代人工智能它所涵盖的这个知识形态非常局限,如语言类的知识以及一些模糊类的知识,很难被这一代的人工智能系统所消化,因此它的应用范围非常有限。
第二代人工智能,也就是大家目前所广泛接触到的基于深度学习的人工智能,这一代人工智能的特点最主要的特点就是数据驱动。在这一代人工智能系统里,往往不需要具备大量的领域知识,只要我们标注了足够多的样本数据,人工智能就能够被低成本的启动,再加上目前我们的神经网络的规模越来越大,上一级的参数都是非常常见的,以及我们GPU算力的极大增强,使得这一代的人工智能技术呢能够非常轻易的处理大数据。
但是,这一代人工智能技术依然有一些非常严重的局限性。首先基于神经网络的人工智能,它往往具有一个不可解释性的这样的一个特点。另外,我们知道数据驱动往往需要一些非常大规模的样本来去支撑我们的模型训练。
虽然现在有一些研究方向,比如说迁移学习、小样本学习,能够从一定程度上去解决这样的行业大样本,大量的标注样本缺失的问题,但是他依然没有能够从本质上解决这一代人工智能的一些本质的缺陷,因此它依然是不易推广的。
从第一代人工智能和第二代人工智能的成就看,我们aI经济进入了一个高速的发展期,我们现在称之为第三代的人工智能,就是把第一代的知识驱动和第二代的数据驱动结合起来的新一代的人工智能。
在这个阶段,人工智能的三要素除了数据算法和算例,还必须具备更为重要的第4大要素,也就是知识。目前,知识增强驱动的人工智能技术在非常多的领域已经取得了一些比较好的成果,运用前景也非常广泛,比如基于知识增强的多模态语音理解,基于知识增强的大规模预训练语言模型等等。
第三代人工智能的一个终极目标,就是去真正的模拟人类的行为,让人工智能系统不仅能够接受数学,还要能够掌握知识,可解释督办,安全可信可靠可扩展,以及基于人工智能去实现真正的推力与决策,是这一代人工智能的最主要的特点。
接下来,让我们把目光从人工智能发展史聚焦到百度的人工智能技术。今年是百度搜索诞生的第20个年头,百度发展人工智能技术也已经有10年了,在过去的十年中,百度搜索引擎一直是各类人工技术净化与落地的主战场,而百度人工智能技术的发展和基础,就是中国规模最大的互联网大数据。
目前,百度已经拥有万亿互联网的网页内容,其中包括百亿级的视频、音频图像和定位数据,我们汇聚了海量用户的互联网行为数据,深度挖掘了30余个垂直行业,360度的去刻画用户的属性,积累了10亿级的用户的精准画像,让我们每天响应数10亿次的网民诉讼请求。
在数据总量层面,整个百度拥有数十万台的服务器和一b加级的这个数据存储,在我们服务于中国10亿级网民的搜索引擎这个产品中,我们已经初步实现了数据到知识的转化,以及基于大数据的智能化应用,基于这个规模最大的互联网大数据,我们构建了世界上规模最大的中文知识图谱,除了通用的实体图谱,我们还针对不同的应用场景,以及不同的知识形态,构建了关注点图,并且实现了多元的异构互联。
同时通过持续的获取知识和积累知识,百度大脑的理解能力和智能化水平也在不断的升级,从而更好的支撑不同的应用场景。那么我们是依靠什么技术来去驱动百度大数据的智能化升级呢?这里我想简要的介绍一下百度知识中台,百度指数中台源于知识图谱,这个曲线呢展示了知识图谱,从2012年百度开始研究到现在的一个发展的历程。那么截止到目前,我们百度的知识图谱已经积累了50亿的实体,5500亿的事实,日均响应400亿次的请求。
那么行业客户为什么需要知识中台,或者说数据到知识的转换,能够给行业客户带来一些什么样的价值。其实知识中台的提出是基于一个各行各业,在大数据的智能化应用中普遍面临的一个挑战,就是要就是高如何高效的沉淀与利用知识。
这些挑战主要体现在以下4个层面,第一个层面是知识生产,行业大数据中往往蕴含着非常多的海量的隐性知识,这些隐性知识非结构化率非常高,从数据中去用人工梳理出这些知识成本高效率低。
第二个层面是知识组织,行业大数据往往面临着系统分制、碎片化和孤岛化的一些现状,数据的形态单一,难以直接的去表达业务的逻辑。
第三个层面是知识获取,我们直接的从数据出发,内容缺乏理解,信息的获取效率往往是非常低下的。
最后的层面是智能化应用,简单的依赖传统的大数据技术,已经在很多的智能化的应用方向遇到了一些瓶颈,它的本质原因其实是数据的深层表达能力的缺失,因此行业急需一套面向企业全生命周期的解决方案。
百度知识中台就是这样一款覆盖企业支持全生命周期的解决方案。所谓的知识全生命周期就是指知识生产、知识组织、知识获取和知识应用,它涵盖了企业内多种模态的数据,包括了用户数据、内容数据和数值数据。这些类型的数据涵盖了我们传统大数据类型的各个方面,同时它提供多场景层次的知识应用能力,比如搜索能力,分析能力和更为高级的决策能力,最终助力企业去汇聚数据凝练知识复能业务,提升企业的核心竞争力。