`
汪洋兽
  • 浏览: 6689 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

知识图谱初探与应用

阅读更多

记得我读小学那会儿,语文老师时常念的一些话就是:知识改变未来,知识改变人生,数学老师就会说:学好数理化,走遍天下都不怕,表达的都是知识的重要性,而时至今日,我身边已然没有人再说这些,因为对于知识重要性的认知已经融入大家的血液中了。

 

随着时代的发展,我们进入了前所未有的信息大爆炸时代,信息背后蕴藏着的则是海量的知识,而知识带动着整个社会的发展与进步。早在远古时代,也许几块石头或者一个鬼画符似的符号就能记录一些知识,慢慢的到了初秋战国时期知识被记录在竹简上,再到后来随着印刷术以及造纸术的发明就出现了以书籍的形式记录下各种知识,而到今天除了书籍以外计算机、互联网等都成为了知识的载体,海量知识的组织形式也是多种多样。没记错的话是2013年末的时候,我看到的一则新闻上说到:Deep Learning(深度学习)Knowledge Graph(知识图谱)引爆了大数据的革命,前者目前行业内中英文资料也比较多,我希望能在后续的部分与大家沟通交流,而今天重点与大家沟通交流的则是知识图谱技术,一项至今也没有什么好的系统书籍介绍,并且中文资料也不多,但是到目前成为热点与发展点的技术。20125Google低调发布了知识图谱技术,并且将其用在的搜索领域,本文的封面配图就使用了Google知识图谱发布时的图片,也成为了这项技术永恒的象征与不可磨灭的记忆。而这项技术后续在百度、搜狗中也得到了长足的应用与发展。

 

既然说到了图的概念,大家肯定想到的图论的概念:图是由若干顶点和边组成,如下图:


知识图谱是个什么?我去wikipedia上并未找到对于知识图谱的定义,只有google知识图谱的一些简单介绍,百度百科上倒是有知识图谱的定义,但是这个定义我也是醉了,基本就是不好好说人话的一个定义(仅代表个人观点),反正以我的智商我是看不懂。以我自己最能理解也是最浅显认知的知识图谱是:以实体、实体属性以及实体关系来描述的一种知识体系。还是很抽象,实体、属性以及实体关系到底是什么?继续举例子:



 

我们把明星的个人情况以及人际关系当成为一个通用的知识在人这个Domain内:

谢霆锋,张柏芝,王菲是实体

他们的性别,年龄,出生年月是属性

前妻、现女友关系就是实体之间的关系

以图的方式进行体系的组织,除了包含本身字面上的一些知识(例如:谢霆锋多大了?可以直接得到答案是34)以外,一些推理知识也可以从上得出,例如:谢霆锋前妻比现任女友小多少?王菲:45,张柏芝34,小11岁。

 

知识图谱与传统的知识库的区别?老外的一些文献用4个单词做了总结:“From strings to things”,简单的来说就是从文本到实体,把从原来松散的文本结构变成有有关联的实体结构。

继续拿上面谢霆锋相关的知识来举例,老的基于Topic的知识结构我们可能得到如下几个知识:

1、 谢霆锋的出生年月是哪一年?答案:1980829

2、 谢霆锋多大了?答案:34

3、 谢霆锋的前妻是谁?答案:张柏芝

4、 谢霆锋的现任女友是谁?答案:王菲

……

当我们要处理上述问题:“谢霆锋前妻比现任女友小多少?”这个问题的时候不可避免的我们要按照老的结构再新增一个知识,带来了冗余穷举的问题。

因此知识图谱相比传统知识体系优势:

1、 具备知识推理的逻辑结构能力;上述举例:谢霆锋前妻比现任女友小多少?

2、 实体、属性、关系能更好的理解语义范围域,提升上层应用例如搜索的准确率等;

 

自从Google2012年使用知识图谱技术在搜索领域带来提升之后,百度、搜狗、微软等巨头在知识图谱领域纷纷跟进,百度知心、搜狗知立方、微软人立方产品随即问市。知识图谱的一些核心技术点:实体识别、语义推理、关系抽取与识别等等在搜索领域、智能人机交互领域、广告投放等领域都有了很多的应用。

 

最后一个问题:如何构建知识图谱?其实这个是一个比较庞大的课题,无论是方法论还是技术涉及的面上都比较广泛,我也不能做特别详细的阐述,欢迎私底下与我沟通交流。

构建的方法:

1、 人工整理:一些特定领域或者与业务强耦合的部分是需要通过人工整理的方式进行,并且有些强业务领域规则类的整体会比较困难;

2、 通用结构化数据获取:FreebaseYago提供了大量的已经结构化好的知识库以供使用;

3、 半结构化或者垂直领域的挖掘:这部分是目前涉及技术最广并且难度也最大的部分,例如:可以通过wikipedia or 百度百科数据爬取与清洗挖掘来构建通用的知识图谱,一些垂直领域通过爬虫爬取后,进行结构化处理进行挖掘。这里涉及到的技术也会非常的多,比如句法分析、关系抽取、实体挖掘等等,知识图谱存储与查询技术:例如开源的Neo4j以及SparQL等等;

 

知识图谱技术,将搜索从搜链接变成了搜索答案,带来了划时代的意义,从目前来看这项技术相关的领域还在继续往前发展,应用领域也越来越广泛,未来会怎样?我们拭目以待:)

 

欢迎与我沟通交流,并且接受拍砖。如果你觉得还行,也可关注我的微信公众账号:关注HelloWorld公众号与一起交流沟通,谢谢~ 二维码如下:



 

  • 大小: 27.7 KB
  • 大小: 61.1 KB
  • 大小: 39.2 KB
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics