HIN异构信息网络

转载 2019-11-23 12:21  阅读 16 次 评论 0 条

本章开始,我们来比较系统地介绍一个数据挖掘领域的前沿方向——异构信息网络(Heterogeneous information Network)。

我们知道,传统的图算法所涉及到的网络对象一般都是同种类型的homogeneous。这种剥离其它信息,只关心对象间的直接联系的网络建模方式,大大简化了我们的处理思路,但是也很容易造成信息的损失。在现实世界中,对象之间的联系以及对象的类型往往是多种多样的,异构信息网络的诞生就是用来从这类丰富的对象以及联系中挖掘数据的潜在价值。

几个定义

Information network信息网络被定义为一个带有对象类型映射φ: V → A 和链接类型映射 ψ: E → R 的有向图 G=(V,E) 。每个对象 v∈V 属于某一个特定对象类型 φ(v)∈A,且每个链接 e∈E 属于关系类型集合R:ψ(e)∈R 中的特定关系类型。如果两个链接属于相同的关系类型,这两个链接共享相同的起始对象类型以及结束对象类型。

Heterogeneous / Homogeneous information network如果一个信息网络中,对象的类型总数 | A | > 1 或者链接的类型总数 | R | > 1,则称这样的网络为异构信息网络 Heterogeneous Information Network;否则为同构信息网络Homogeneous information network。

为了简化起见,后文称异构信息网络为 HIN。下图给了一个关于论文引用数据集的 HIN 的例子:

Network schema 网络模式 是定义在对象类型和关系类型上的一个有向图,是信息网络的描述模板。网络模式全面地描述了 HIN 中的结构模式,指导我们对网络语意的挖掘。对于一个链接类型 R ,起始对象 source object 类型为 S ,结束对象 target object 类型为 T :,R.S, R.T ,相对应地,链接类型的反对应。通常,这两种关系并不等价,除非关系是对称的。

上图 a 给出了一个HIN 的实例,右边 b 就是这个实例所遵循的网络模式,可以看到,该网络中存在三种对象类型 papers (P), authors (A), and venues (V),多种链接关系,如


Meta path元路径是定义在网络模式上链接两类对象的一条路径,形式化定义为

元路径刻画了对象之间的语义关系,比如下图 a 中 APA路径代表了两个作者合作了同一篇论文,图b APVPA 表示两个作者在同一个会议上发表了论文 图c 表示作者在某个会议上发表了论文。

Meta path 的重要意义

元路径是整个 HIN 体系的核心,不同的元路径,刻画了对象之间不同的语义关系,这种语义关系的挖掘,是后续各类任务的基石。比如不同元路径下的作者相似性就会不同,在APA这条路径中,一起合作过论文的作者更为相似,但是在APVPA路径中,经常在同一会议上发表论文的作者更相似。又比如我们考虑不同元路径下的对象排名,APA路径会给经常发表合著类论文的作者更高的排名,APVPA路径则会给在高产会议上发表更多论文的作者更高的排名。在本章接下来的讲解中,我们将不断重复认识这一点。

HIN 数据分析

作为网络数据的一种新的建模方式,HIN 更契合异构的数据本征,它能够包含更多的信息以及整合丰富的语义关系,这是 HIN 的优点,也是 HIN 研究的难点。在学术界,HIN 已经成为网络数据挖掘的重要工具,各类任务如 相似度度量、分类、排序、推荐等等都已得到广泛应用。当然这里需要指出来的是,碍于 HIN 体系里面相关性度量这一基础工作的高时间复杂度,在面临真正的大数据体量时,HIN 往往显得力不从心。如果能够有效克服这份挑战,相信HIN 在工业界的应用会得到长足的进步。

本章内容

本节由几个定义出发,引出了 HIN 的基础概念。在接下来的几节当中,会陆续介绍如下内容:

1、各类基于元路径的相关性度量方法 深化我们对于元路径的理解;

2、各类基于元结构的相关性度量方法 拓展元路径的建模思路,挖掘更丰富的语义联系;

3、基于 HIN 的推荐算法,HIN 引入到推荐里面,能提供什么价值;

4、HIN 的一些其他应用,看看 HIN 在某些实际场景中的应用思路;

5、HIN 的表示学习,这一节会介绍如何在异构网络上进行表示学习,为了专栏的系统性,这一节内容会编排到下一章图的表示学习当中,大家拭目以待吧。

参考书籍:

1.Heterogeneous Information Network Analysis and Applications

2. A Survey of Heterogeneous Information Network Analysis

本文地址:http://51blog.com/?p=6185
关注我们:请关注一下我们的微信公众号:扫描二维码广东高校数据家园_51博客的公众号,公众号:数博联盟
温馨提示:文章内容系作者个人观点,不代表广东高校数据家园_51博客对观点赞同或支持。
版权声明:本文为转载文章,来源于 刘忠雨 ,版权归原作者所有,欢迎分享本文,转载请保留出处!

发表评论


表情