admin 管理员组

文章数量: 1184232


2024年5月16日发(作者:js教程w3s)

介绍了指数随机图(P *)社交网络模型

(加里·罗宾斯,皮普派特森,尤瓦尔·卡利什,院长Lusher)

心理学系,行为科学,墨尔本大学商学院。 3010,澳大利亚

摘要:

本文提供的介绍总结,制定和应用指数随机的图模型的社交网络。网络的各个节点之

间的可能的关系被认为是随机的变量和假设,这些随机的领带变量之间的依赖关系确定,

一般形式的指数随机图模型的网络。不同的相关性假设的例子及其相关的模型,给出了包

括伯努利,对子无关,马尔可夫随机图模型。在社会选择机型演员的加入属性也被审查。

更新,更复杂依赖的假设进行了简要介绍。估计程序进行了讨论,其中包括新的方法蒙特

卡罗最大似然估计。我们预示着在其它组织了讨论论文在这款特别版:弗兰克和施特劳斯

的马氏随机图模型[弗兰克,澳,施特劳斯,D.,1986年马氏图。杂志美国统计协会81,

832-842]不适合于许多观察到的网络,而Snijders等人的新的模型参数。[Snijders,

TAB,派特森,P.,罗宾斯,GL,Handock,M.新规范指数随机图模型。社会学方法论,

在记者]提供实质性的改善。

关键词:指数随机图模型;统计模型的社交网络; P *模型

在最近几年,出现了在指数随机图模型对于越来越大的兴趣社交网络,通常称为P *

类车型(弗兰克和施特劳斯,1986;派特森和沃瑟曼,1999;罗宾斯等人,1999;沃瑟曼和

帕蒂森,1996年)。这些概率模型对一组给定的演员网络允许泛化超越了早期的P1模型

类(荷兰和Leinhardt,1981年)的限制二元独立性假设。因此,它们允许模型从社会

行为的结构基础的一个更为现实的构建。这些模型车的研究多层次,multitheoretical假

说的有效性一直在强调(例如,承包商等,2006)。

已经有一些自Anderson等重大理论和技术的发展。 (1999)介绍了他们对P *型

号知名底漆。我们总结了本文上述的进步。特别是,我们认为重要的是在概念上从依赖假

设的衍生地,这些模型,模型的基本依据,然后作出了明确,并与有关(不可观察)社会

进程底层网络的形成假说更容易联系。正是通过新的模式,可以开发一个有原则的方式,

包括结合了演员的属性模型这样的做法。在模型规范和估计最近的发展需要注意的是,因

为这样做就设置结构和部分新技术的步骤依赖的假设,不仅扩大了级车型,但具有重要意

义的概念。特别是,我们现在有一个更好的了解马尔可夫随机图,和有前途的新规格的性

能已经提出来克服他们的一些不足之处。

本文介绍了模型,并总结当前方法的发展与扩展概念的阐述(更多技术总结最近被沃

瑟曼和罗宾斯,2005年定;知更鸟和派特森,2005; Snijders等人,出版。)我们首先简

要介绍理分析社交网络的统计模型(第1节)。然后,我们提供指数随机图模型的基本逻

辑进行了概述,并概述我们框架模型构建(第2节)。在第3节中,我们讨论的重要概念

一个依赖假设的建模方法的心脏。在第4节中,我们提出了一系列不同的相关性假设和模

型。对于模型估计(第5章),我们简单总结伪似然估计(PLE)的方法,并检讨最近的

事态发展蒙特卡罗马尔可夫链最大似然估计方法。在第6节中,我们提出拟合模型,网络

数据的简单的例子。总之,我们注意到的重要性新的型号规格是关注在这款特别版的其他

论文的重点。

1. 为什么模型的社交网络?

有许多公知的技术,用于测量网络性能的节点,或节点的子(如密度,中心性和凝聚

力的子集)的。这些技术服务有价值的目的,描述和理解的网络功能,可以承受在特定的

研究问题。那么,为什么我们会想要超越这些技术和搜索合身的一个观察到的社交网络的

模型,特别是一个统计模型?原因这样做有以下内容:

(1) 社会行为是复杂的,并且随机模型使我们能够同时捕获的规律在该过程引起

网络的联系,而在同一时间识别存在是可变性,我们是不太可能能够进行详细建模。此外,

如瓦(1999)已令人信服地证明,“加入”少量随机性的,否则便会定期进程可以极大地

改变了这一进程的可能结果的性质。它是因此,重要的是要允许的随机性,如果我们认为

它最能反映过程我们的目标模型。也许最重要的是,良好的特定的随机模型使我们要了解

与观察到的结果的不确定性:我们可以了解可能结果的模型一个给定的规格分布,或者我

们可以估算,对于给定的观察到的数据,从该数据可能已被产生的虚拟模型的参数(并且

也获得与其相关联的不确定性的定量估计估计)。

(2) 统计模型也允许关于是否特定网络子结构的推论 - 通常由一个或少量的参数

所表示的模型 - 在网络中被更普遍观察到可能比偶然预期。那么我们可以假设开发了解可

能产生这些结构性质的社会过程。

(3) 有时,不同的社会进程可能会做出类似的网络质量预测结构,它只有通过仔

细的定量模型,在预测的差异进行评估。例如,群集在网络可能产生的内源性(自组织)

结构的影响(例如,结构平衡),或者通过节点级效果(例如,同质性)。要在两个方案之

间作出决定,需要一个模型,结合这两种效应,然后评估每个的相对贡献。

(4) 在更复杂的网络上的数据结构,更有用的适当配制的模型可以在实现高效的

表示。值得注意的是,有avariety的确定性方法FO ranalyzing单个二进制网络,但其

中许多都是不恰当的,或者是太复杂,对于更复杂的数据。为了了解网络的演进

(Snijders,2001)或多个网络结构(Lazega和派特森,1999),模型可以有很大的价

值。

(5) 在社会网络分析的几个长期存在的问题,涉及到如何本地化的社会过程和结

构结合起来,形成全球网络模式,而这种本地化的进程是否足以说明全球网络性能的谜题。

它是难以调查这些问题没有一个模型,如在所有的除了相当简单的情况下,由许多小规模

结构的组合所造成的全球结果没有立即明显,即使是定性的。具有良好的本地指定型号的

社交网络,它可能会穿越这条微宏的差距,往往是通过模拟。

我们特别强调显影可信模型,这些模型可估计从数据并因此经验为基础的值。有多种

型号的网络文学,这对于模拟,假设生成的重要工具,而“思想实验”。但是,我们的主

要目标是估算数据模型的参数,然后评估如何充分的模型表示的数据。这些互补的方法成

为有用的,但不同的目的,用数据驱动的方法显然是其支撑结构的模型假设的实证审讯能

力的独特价值。

2后面的P *模型对社会的逻辑网络,大纲

我们描述了作为观测到的网络的研究者已收集并且可以在网络数据有兴趣建模。所观

察到的网络是从一组可能的看作一个实现网络具有类似的重要特征(至少是,行动者的数

量相同),即是,由于一些(未知)的随机过程的结果。换句话说,观察到的网络被看作

是关系一个特定图案出一大组可能的图案。在一般情况下,我们做不知道什么随机过程产

生所观察到的网络和我们在制定目标模型是提出一种可行的和理论上的原则假设此过程。

例如,我们的研究课题之一可以是是否在所观察到的网络有显著更多,或者更少,感

兴趣结构特征比偶然预期。我们可能会看到这些特性当地社会进程的成果。例如,我们可

能会问的莫雷诺和詹宁斯(1938年)的统计数据,社交网络的第一个应用程序做了观察

网络是否显示了对等的强烈倾向,超出了一些回报的关系,如果关系的机会亮相发生完全

是随机的。换句话说,你所观察到的网络中的行动者往往回报关系的选择?这里的结构特

点(投桃报李的关系)是一个社会过程(个人选择来回报他人的选择)的结果。因此,作

为一个简单的例子,我们可以断定一个随机网络模型具有两个参数,一个反映的倾向关系

发生在随机和一种反映了一个额外的倾向往复运动的发生。

在一般情况下,在质询帮助的结构特性来塑造模型的形式。一一个对等进程的假设使

我们提出一个模型,其中所述电平的指标互惠是参数。这个假设也反映了什么样的期望网

络更容易。对于一个给定的演员组成的网络统计模型分配概率就这些演员的所有可能的网

络。例如,由于互惠关系是通常观察到的功能,在友谊网络,良好的模式很可能意味着网

络与往复运动是比较常见和网络没有回报是相当不可能的。

正如往常一样,我们代表的网络节点和边的图。对于一个给定的模型,所述节点集合

被认为是固定的。可能的网络的范围内,和它们发生的概率该模型下,通过在该组的所有

可能的曲线图上的概率分布表示同节点的这个号码。在图的这种分布,这些图表有大量的

水平往复运动都可能具有比图少往复运动的概率较高,具有取决于相关的参数,值的精确

概率,如对等参数。需要注意的是所观察到的网络是在该分布的特定图形,所以它也具有

特定概率。

当然,在一开始,我们不知道在分配概率在分布图形要使用的参数值。我们的目标,

更确切地说,是要找到最好的值(通过估算模型用所观察到的网络作为引导参数)。必要

的最大似然准则是选择的参数值以这样一种方式,往复运动的最可能的程度是这发生在所

观察到的网络。如果模型有一个对等的参数(定义为零时相互关系发生偶然的),如果有,

在许多往覆关系观测到的网络,则一个模型,它是一种非常适合于数据中往复运动的程度

方面将产生积极的对等参数。如果我们估计互惠参数的观测网络,如果我们可以相信,这

个参数是正的,我们可以推断,还有更多互惠中所观察到的网络不是偶然的预期。

一旦我们定义该组的所有图形的概率分布与节点的一个固定数目的,我们也可以从分

配根据分配给它们的概率绘制图形随机的,并且我们可以在任何其他比较采样的曲线图,

以观察到的1感兴趣的特征。如果该模型是一个很好的数据,然后将采样的图形将类似于

所观察到的1在很多不同的方面。在这种理想的情况下,我们甚至可以推测这种建模的结

构效应可以解释在网络的出现。我们可以以了解网络,有可能从这些影响出现的性质研究

采样图形的属性。

作为一个例子,考虑在一所学校的教室友谊。所观察到的网络是为我们所测得的友谊

关系网络。有可能已经观察到对于特定的教室许多可能的网络。我们检查了教室里所有可

能的网络结构的情况下观察到的友谊结构在教室里。一些结构在教室可以是相当容易和一

些不太可能发生,和该组所有可能的结构,有关其相应的机率一些假设是曲线图上的概率

分布。我们把观察到的这个网络中的分布,而不是在其他教室观察网友谊网络进行比较。

(当然,我们的模型中所观察到的网络也可以是用于其它教室的良好模型,但是这并不是

问题,在这一点上)。

注意,假设是,网络是由一个随机过程,其中关联关系进入在于,可通过其它关系

(和可能的节点级属性)的存在或不存在的形状的方式被产生。换句话说,网络被概念化

为关系型关系的自组织系统。实质上,索赔是有产生二元关系,当地的社会进程,而这些

社会过程可能取决于周围的社会环境(即在现有的关系)。例如,我们可以假设,具有类

似属性的行动者更可能形成友谊关系(同质性),或者,如果两个未连接的参与者被连接

到第三演员,在某些时候,他们有可能形成它们之间的友好提携(及物)。需要注意的是,

除了随机性的假设,这种描述也隐时间和动态。

2.1。为模型构建的总体框架

在并主张指数随机图模型的社交网络,研究员隐含如下五个步骤。而研究的重点是参

数估计和解释的最后一步,它是通过所有的五个步骤,一个研究人员,使连接理论的决策

数据分析明确的选择。正如图所示,正是通过这些前面的步骤,我们可以对指数随机图模

型的专栏中查找某些早期的网络模型。

2.1.1。步骤1:每个网络领带被视为随机变量

这一步意味着与固定节点集合的随机框架。通过假设领带是我们不意味着人们形成一

种特定的方式关系的随机变量:有些关系可能是很可能发生的。相反,我们只是指出我们

不知道的一切关系的形成,我们的模式是不会做出完美的确定性预测,并因此有一些将要

统计的“噪音”,或缺乏规律性,即我们不能成功地解释。

可能的网络关系建立为随机变量,应及时复习一些基本的符号。对于每个i和j谁是

一组n个参与者的N个不同的成员,我们有一个随机变量Y IJ其中Y IJ= 1,如果是从演

员一个网络领带i到演员j以及其中Y IJ=0,如果存在就是不打领带。我们指定Y IJ作为

变量Y ij的观测值,我们让Y为所有变量的矩阵为Y观测关系的矩阵,所观察到的网络。

当然,y可能也被解释为对节点集合N的曲线图,与由那些对(I,J)为且y IJ=1指定的

边集。Y可以被引导(其中当Y ij是杰出的选自Yジ)或无定向(其中Y IJ= Yジ和两个

变量没有区别)。它也可以为y将被重视,虽然本文中,我们将限制注意二元关系。

2.1.2。步骤2:一个依赖假说提出,定义网络变量之间的意外

这一假说体现了假设生成网络联系当地的社会过程。例如,关系可以认为是相互独立

的,也就是说,人们形成独立的其它的社会联系的社会关系。这通常不是一个非常现实的

假设。在学校教室的地方互惠的过程,的例子,如果一个学生喜欢的学生B,那么学生B

很有可能像学生一个暗示某种形式的二元依赖。领带也可能取决于节点级属性(见下文第

4.4节),与在课堂实例可能同质性的影响。请注意,这些过程可以表示为一个小规模的图

形配置:例如,一个投桃报李的领带,或者两个女孩之间的纽带。

2.1.3。步骤3:将依赖假设暗示某一特定形式的模型

可以证明,以及指定的依赖假设意味着某一类车型(在哈默斯利 - 克利福德定理,

Besag,1974年)。每个参数对应于网络中的结构,即,可能的网络关系(和/或演员的

属性,尽管这是购买)的一小部分。这些配置的利益(例如,往复式cated关系)的结构

特点,上文提到的。该模型则表示其被假定为从由配置所表示的本地化模式“建立”随机

图的分布。例如,一个单一的领带是一个配置,可能是投桃报李领带(有向图),一个传

递黑社会和二星级。与每个所观察到的曲线图,这些配置中的存在的参数可以被包括在模

型中。

依赖假设和模型的一般形式在下文第3节中讨论。特别依赖的假设都在第4节。

2.1.4。第4步:通过同质性或其他方面的限制简化参数

为了清楚地定义了一个模型,我们需要减少参数的数量。这通常是通过征收同质化约

束进行。实际上,我们问一些参数是否等同于或以其他方式有关。例如,我们通常建议对

于整个网络的互惠效果的一个参数,通过假设互惠参数为每个可能的往复式领带都是平等

的。对于特定型号的参数约束中示出了第4节。

2.1.5。第5步:评估和解释模型参数

当然,估计和解释通常是特定的研究应用重点,但在到达这一步意味着,其他四个都

已经进行,即使只是含蓄。这个步骤是复杂的,如果相关结构是复杂的,因为它可能需要

为任何现实的模型。具有得到的参数估计值,以及估计的不确定性的估算值,我们可以随

后采取具有对于从可指定依赖的假设构成的网络中的统计模型的充分利用,并且从观察到

的网络数据进行估计。例如,我们可以探讨通过模型,这一步骤可以是非常有益的评价有

多好,模型预测结果的网络的范围,我们可以对模型参数的推断。例如,我们可以推断出

任何模型参数是否显著不同于零,并因此进行相应的配置是否存在于所观察到的曲线图,

以或大或小的程度比偶然预期的,给定的其它参数值。我们讨论了参数估计中的第5节。

3指数随机图模型的一般形式为:依赖的假设和参数约

指数随机图模型有如下形式:

(1)

其中,(i)的总和超过所有配置A;(ⅱ)ηA是对应于结构的参数(并且是非零仅当

在A中的所有对变量被假定为有条件地依赖);(三)克(Y)=?ŸIJ∈AŸij是对应于配

置的网络统计数据;克(γ)=1,如果在网络中y为观察到的结构中,并且是0;否则返回

(ⅳ)κ是一个归一化量可确保(1)是一个适当的概率分布。

所有指数随机图模型方程的形式。(1),其描述了图的上n个节点的一般概率分布。

观察任何特定的图表Y在该分布的概率由下式给定的,而这种概率取决于两个对统计克

(y)的在网络y和对各非零参数η,一种用于在所有配置中甲该模型。配置可能包括投

桃报李的关系,传递黑社会等等,因此该模型使我们能够研究各种可能的结构规律。

那么,为什么依赖的假设很重要吗?依赖假设有挑选出不同类型的配置,相关的模型

的结果。从点注意上述(ii),参数都是零,每当在一个配置变量是有条件地相互独立。换

句话说,这是相关的模型的唯一配置是其中配置中的所有可能的关系是相互取决于对方。

值得注意的是,如果一组可能的边缘代表模型中的结构,则(1)意味着可能的边缘

的任意子集也是一种配置。因此,单一的边缘总是配置,这表现在第4节。

这样的依赖关系的假设是在约束其配置是可能的模型中是至关重要的。我们将讨论在

第4具体实施例的结构A表示并列的变量的子集,并且对应于一个小的子网络。举例来

说,如果有向网络,我们采用一个二元依赖的假设(参见第4章),将遵循互惠参数将在

模型中。在这种情况下,在模型1的配置是一组变量{Y12,Y21},另一个是{Y13,Y31},

等等,而每二分体设置其自己的配置。显然,对于任何这些结构中,如果两个关系存在于

所观察的图中,我们看到一个往复运动的领带,这样的结构代表一种类型,可能在图表Y

观察到网络子结构。我们可以概略地认为这个配置作为子结构,即投桃报李领带。

但当然也不能保证,在一个给定的配置所有可能的边缘将出现在一个实现图形Y,所

以我们会看到其中的一些可能的子结构,而不是其他。有些关系会得到回报,有些则不会。

配置代表的可能性。图形统计量,克(y)时,在另一方面,告诉我们是否在配置A是实

际上在网络ÿ观察。对于一个对等结构的,即统计干脆告诉我们是否有回报的相关节点对

与否之间的关系。

我们可以认为,在分布的曲线图,作为由这些潜在的重叠构型的产生。例如,假设有

在工作中的处理产生的网络中的对等效果。如果我们能观察到网络的演进,以及网络开始

与几个往复式关系,我们可能会看到更多的往复式关系出现一段时间。在这样的想法,但

是,我们必须记住,作为一个特殊的领带出现过一代人的想象的过程中,它的存在可能会

影响其他潜在的邻国关系。因此,有一个隐式动态的,自组织的质量这一假设的施工流程:

为一个领带出现或消失,其它相邻关系有可能出现或消失为好,并且有可能是没有天然的

端点,以这种持续的随机过程。然而,任何特定的参数值的强度和方向会影响到相应的配

置,如何频繁地观察到。如果该参数为大且为正,我们期望观察到在图中相关的配置中分

布(1)比如果该参数为零更加频繁。所以,如果一个互惠参数又大又积极,我们希望看

到的观测网络的多个往复式关系。同样,当参数为大和负我们希望看到的配置(例如,投

桃报李的关系)相对较少比如果参数是零。

因为:(1)有一个指数项的右侧,这样的分布也被简称为指数随机图模型。弗兰克和

施特劳斯(1986)的马尔可夫随机图是一个特定类的指数随机图模型。网络分析界也指

指数随机图模型类为p*模型,因为他们是一个泛化的二元独立模式,其中p为1款(荷

兰和Leinhardt,1981年)是一个流行的早期例子。

3.1。在参数约束

请注意,公式(1)指的是用于设定不同节点的不同的配置。例如,用于与对等模型

存在于{Y12,Y21},用于{Y13,Y31},等等单独的配置。在这种一般的形式,那么,该

模型意味着许多参数。例如,有n(n-1个)单独与可逆性/2的参数。

这是太多的参数和模型,不能从一个单一的网络,估计观察。某些参数需要被设置为

零时,等同于或以其他方式限制。以下弗兰克和施特劳斯(1986)中,我们经常被等同

参数,并处以同质性假设当它们指的是同一类型的配置。举例来说,在考虑互惠,保可往

往非常强烈的报答友谊提供来自别人,而是玛丽可能更持谨慎态度。用于构成一个简单的

模型的目的,然而,我们可以假设有是互惠双方玛丽和保罗·共享一个单一的倾向。由此

产生的误差为消耗到模型的统计噪声。这种方法假定某些规律性的同样对于整个网络,例

如,有用于在对等单一倾向网络,而不管其中的节点是包含的。我们称这种同质同构网络

配置中,其中的参数等同于如果该配置是相同的时我们忽略了节点(在这种情况下的配置

被认为是同构的)上的标签。一个不太激进的假设也有可能:例如,如果我们能够衡量一

切个人特点倾向于他们回报的关系,我们可以让互惠效果依赖于这些节点的特点。

当我们把这种同质性假设,我们生产的具有相同形式式的典范。(1),但现在的(同

构)配置是指一般的效果(例如,整体的互惠效应)。统计则成为相应的配置的计数在网

络中(例如,往复运动关系的数)。

但也有在其中的参数限制可以应用于其他几种方式,并且不同的约束条件导致不同的

型号。施加约束的另一种方法可以是等同于涉及相似类型的行动者的同构的配置参数。例

如,在互惠课堂友谊网络的情况下,我们可以提出的女孩,女孩的配置,一个是女孩,男

孩的配置和另一个男孩,男孩配置中的一种互惠的参数。

即使有了合理的同质化约束模型可能仍然有太多的参数,是难能可贵的。在这种情况

下,我们可能会考虑通过一些参数设置为零限制的配置的数量(见4.3节),或通过引入

对较大的相关配置参数的值,假设约束(如提出Snijders等人,在新闻界。参见4.6节)。

4.依赖的假设和模型

4.1伯努利图:最简单的假设依赖

当我们假设边缘是独立的,如果发生根据一个固定的概率α(;弗兰克和诺维奇,

1993见埃尔德什和仁义,1959),例如它们随机地产生伯努利随机图形分布。依赖性的

假设是在这种情况下很简单:所有可能的不同的关系是相互独立的。我们在上文指出,相

关的模型的唯一配置是其中配置中的所有可能的关系是有条件地依赖于彼此。当所有可能

的关系是相互独立的,唯一可能的配置涉及到单个边缘{Y} IJ。所以从(1)的一般模式是:

注意,相对于(1)的每个集合A包括单个可能的边缘ýij是在该模型的结构,并有

一个参数ηIJ为每个这些配置。网络统计克(Y)= G IJ(Y)= Y IJ告诉我们,无论是观

察还是没有该配置。如果我们施加均匀的假设,使每个领带的效果是一样的,我们等于参

数,使得ηIJ=θ对所有的i和j,因此:

(2)

其中,L(y)的=?我的jy ij是弧的图中的y中的数和参数θ所涉及的是并列被观察

的概率。参数θ称为边缘或密度的参数。

还有其他的可能性施加均匀性。假设我们有演员两个先验块,我们施加块的均匀性,

从而使ηIJ=θ11若i和j是在数据块1,ηIJ=θ12,如果i是块1和j中块2,并等等。然

后它是简单的表明

其中,L11(γ)是圆弧的第一个块内的编号和L12(γ)是从块1的弧的方框2的数

量,等等。

4.2。二元模式:二元独立性假设

对于向网络一个稍微较复杂的(但通常不很现实的)假设是二价基,而不是边缘,是

相互独立的。以这种依赖假设我们有两种类型的配置在模型中,单个边缘和往复运动的边

缘。随着同质化征收,模型就变成了:

(3)

其中,L(y)为在y和M(y)的关系的数量= I,的jy IJýジ是y中的相互关系的数

目。一个稍微复杂的同质性假设,结果在第1页模型,荷兰和Leinhardt(1981)。

相关但更复杂的和现实的车型包括P 2模式(Lazega和面包车Duijn,,1997;范

Duijn等人,2004),其假定矢独立,但条件是节点级属性效果。在P2模型是在适当的

时候结构有望从属性出现。它是在p1模型与发送机和接收机的影响视为随机效应和延伸

与演员和二元的影响包括在内。更复杂的假设支撑这种模式使其更现实的实际网络数据,

特别是当属性效果预期要坚强。它不同于一般的指数随机图模型中随机掺入的影响。当然,

在非定向网络,伯努利和二元组的依赖性模式的情况下是相同的:非定向网络,式中的对

等参数ρ(3)是不相关的,并该模型简化为等式(2)。

4.3。马尔可夫随机图

伯努利和二元依赖性结构在许多情况下,实际的假设,无论经验和理论。弗兰克和

Strauss(1986)介绍了马氏依赖性,其中从i的可能扎到j被假设为基础上将i或j,即

使在网络中的所有其它关系的状态是已知的任何其它可能的领带。在这种情况下,这两个

关系被认为是有条件地依赖于给定的所有其它关系的值。7马尔可夫依赖性可以表征为,

前提是两个可能的网络关系是有条件地依赖于当它们有一个共同的演员。例如,彼得和玛

丽之间的关系很可能是依赖于玛丽和约翰(特别是如果关系是一个浪漫的一个!)之间的

关系存在或不存在,我们可以表达这种更正式通过假设的可能关系之间的条件依赖Ÿ下午

和Y MJ。这两种可能的关系是有条件地依赖,因为它们共享节点m(玛丽)。

如果我们还假设均匀性,我们得到马尔可夫随图模型,与配置(和相关的参数),用

于在图呈现定向和非定向的网络。1,这些参数与在网络文学一些知名的结构规律。对于

有向网络,我们已经看到边缘(τ15)和互惠(τ11)从伯努利和二元独立模型的参数。

有各种二星效应:在两个出星参数(τ12)可以被认为是与膨胀性,这两个混合星参数

(τ13)涉及两个路径,n和双中星参数(τ14)涉及的人气。需要注意的重要的传递和

循环结构(9τ和τ10)。包含这些参数是这些车型的强项,因为是从数据可估计的网络模

型,将这些影响(纽曼,2003年),和极少数确实很少。完整的参数集包括所有可能的高

阶星为好,但如果所有这些星星都包含有太多的参数模型,是难能可贵的。虽然马氏随机

图模型的一些早期的应用包括仅两星效果,现在已知的是,以包括一个非零参数,至少对

许多社交网络的三星级效应模型中可能是重要的(Robins等,2004,2005)。另一种方

法(见下文)包括所有高阶星参数而规定了高阶星参数之间的关系的约束低阶的。

有大图(略)

例如,马尔可夫随机图模型的非有向网络边缘,二星级,三星级和三角形的效果是:

(4)

其中,S2(γ)和S3(γ)是两分和三颗星,数字分别在网络ÿ和T(y)为y中的三

角形的数量。请注意,对于马氏随机图形,但是也可以包括高阶三(四颗星,五颗星,等

等)的恒星参数。在该模型式。(4)是我们如何设置某些高阶参数设置为零(3.1节)的

一个例子。在这种情况下,我们假设恒星的分布(实际上,度分布)可以充分的二维和三

星级的效果解释。

但是应当注意的是,在马尔可夫模型的统计往往彼此相关的,在一些较高阶给他人的

意义。例如,假设有一个三星级的非定向网络中心节点i的。然后它也有三个二分(和三

个边缘)的情况下,也集中在岛这类似于在更熟悉的一般线性模型程序高阶相互作用。这

是有助于解释模型的一个重要特征。如果,例如,一个网络有很多双恒星存在,则一定会

形成三角形只是偶然,但如果在一个马尔可夫随机图模型,大量的三角形的效果,这是超

出任何两个明星效应的,我们可以推断,三角测量的电平不发生,因为许多两分(或实际

上的许多边缘)的机会重叠的根本。在这种情况下,我们将推断三角测量是独立于其他影

响在这个网络中的一个重要的过程。

也得到了发展这一基本马尔可夫随机图模型的几个阐述:对于多元网络(派特森和沃

瑟曼,1999年);对值的网络(Robins等,1999);对于所属的网络(Skvoretz和浮士

德,1999;另见帕蒂森和罗宾斯,2004)。

4.4。依赖结构,节点级变量

有引入节点级的效果(演员属性)为马尔可夫等指数随机图模型的各种方法。我们假

设二进制属性变量的向量X与X I=1,如果演员我有属性和X I=0,否则。矢量x是那么

组观察X上是可能推广到多歧和连续属性的措施,但我们将限制目前讨论到二进制属性。

在这里,作为一个例子,我们将简要地描述其中的属性被假设为对网络联系的外源预测社

会选择模型(Robins等。,2001)。9,我们可以研究一个相似性或同质性假设,作为社

会选择 - 社会关系往往具有相同属性的行动者之间建立的基础 - 通过观察给定属性的分配

关系的分配。换句话说,从方程作为不同。(1)中,我们的兴趣是在图中的概率y所表示

的属性x的观测值,即,镨(Y = Y| X= x)的。

(图形略)

属性和网络变量之间的简单相关性的假设是,i的属性影响涉及我(即Ý九)可能的

关系,称为马尔可夫属性假设。例如,在组织设置,演员的资历(比如,高级管理与初级

管理人员),可能会影响该演员的可能联系。如果我们考虑马尔可夫属性随着马氏网络的

依赖关系,图1中所示的非定向网络模型中包含的配置(多达三星级)。2,用填充节点

代表谁的资历属性(即男主角是一名高级管理人员)的演员,和一个空节点(与虚线)只

是表示,不论是否初级和高级的演员。换句话说,配置(A)表示倾向的高级管理人员有

相互联系;而配置(B)代表的高级管理人员有很多关系的倾向,等等。大的正参数估计构

造(A)是证据为网络中的同质性的效果。

它是由图明显。2,随着属性的唯一的非二元结构包含两个或三个星,与在恒星的中

心属性的演员。为了产生三角形的结构与属性变量需要额外的依赖的假设。

4.5。更复杂的依赖的假设

对超越马尔可夫随机图指数随机图模型阐述了发展。派特森和罗宾斯(2002)提出

了两个创新。对于设置机构,他们只限于在社会环境的依赖。图纸上费尔德(1981),他

们建议作为基于时空上下文可能的实例的设置,例如一组人在同一时间和地点聚集;基于

更加抽象的社会文化空间的设置,如对他们的政治承诺挂钩的人;和设置,反映外部“设

计”的限制,例如组织结构。

另外一个动机引进的设置是马氏的依赖似乎不现实的大型网络,其中个别演员甚至不

知道对方,并且也没办法接触到,但他们的领带可能仍然采取以影响其他可能的联系。如

果设置结构假说是有理有据的,是有一个需要收集社交网络的充分了解数据类型的影响。

对于进一步的解释,也见Schweinberger和Snijders(2003)。

由派特森和罗宾斯(2002)提出的第二个方向是提出非马尔可夫依赖之间的关系是

不同意的演员,但通过第三方的链接可能会被相互依存的。例如,Y IJ可有条件地依赖于

Y上的RS为四个不同的行动者是否有i或j和R或S之间所观察到的领带。这些实现依

赖模型可以通过什么派特森和罗宾斯(2002)描述为部分依赖结构进行开发。这些模型

还允许引进涉及的属性效果的三角形。

4.6。新的模型形式

有越来越多的证据表明,马氏随机图模型并不好模型,观察到的许多社交网络(见下

文第5.2节),所以这些模型并不总是在实践中是有用的。基于实现依赖结构,Snijders

等。(印刷中)开发的新的规格为指数随机图形的模型,其中包括新的更高阶项。这些模

型中引入约束日k星参数,以及新的更高的k-三角形的结构,允许对其中两个个体可以

被连接到一个大的数目k他人的网络的高度聚集的区域的测量(一个的k三角形)。对于

这些模型中,包含许多高次星形和三角形的效果(而不是设置为0),但是它们受限于进

行加权求和,具有交替的标志的形式。这些创新背后的动机,以及这些新的规格型号的成

功,在其他文件中这一特别版的讨论。

5.估计

Anderson等人的(1999)在施特劳斯与池田大作(1990年),以估计马尔可夫模

型的参数介绍了P *底漆用伪似然估计。我们现在知道,取决于数据,可能有严重的问题,

与伪似然估计这些模型。但对于马尔可夫随机图模型,标准最大似然估计是因为在计算式

中的常数标准化的困难,不听话的,但任何非常小的网络,。 1,这意味着该标准统计技

术不能应用于这些模型。这些问题已经被克服近来由新蒙特卡洛最大似然技术的发展。首

先,我们做了一些关于伪可能性相当简短的评论,然后引入新的评价方法。

5.1。伪似然估计:大约技术

使用伪最大似然估计的互动模式最早由Besag(1975),并提出了马尔可夫随机图模

型由施特劳斯和池田(1990)。在一般统计界,假的可能性已经让蒙特卡罗技术在可行情

况下,尽管它仍然有它的信徒(见沃瑟曼和罗宾斯,2005年,一些文献)。伪似然估计的

指数随机图模型的上下文中的优点是,它是比较容易的,以适应即使是复杂的模型。的缺

点是,该估计器的性能没有得到很好的理解,它是已知的,对于许多数据集的伪似然的估

计是不准确的。

伪似然估计是最好的转换公式的理解。(1) - 模型的接头形式 - 为以下等价条件表

(见施特劳斯和池田,1990年,更多的细节):

(5)

其中,(1)之和超过包含ŸIJ所有配置A;(2)ηA是对应于配置的参数;(3)D A(y)

是变化的统计;在网络统计量Z A(Y)当y IJ从1到0的变化值的变化;(4)YçIJ是y中

的关系,除了观察ŸIJ所有的意见。

变更统计的计算进行了广泛讨论,许多作者(Anderson等,1999;派特森和罗宾斯,

2002;沃瑟曼和派特森,1996;沃瑟曼和罗宾斯,2005),因此我们不进入它进一步这里。

与计算,以产生伪似然估计变动的数据,每一个可能的领带ýIJ成为一个标准的回归过程

的情况下,其中y IJ从该组的变化的统计预测(Anderson等,1999)。

这个过程看起来像一个回归 - 或者实际上,一个对数线性模型 - 但事实并非如此。

Logistic回归假设独立的观察,我们明确不马尔科夫和高阶机型做一个假设。因此,参数

估计值可能会有所偏差;与标准误差是近似的,在最好的,并且可能会太小。人们不应该

依赖沃尔德统计为手段,以决定一个参数是显著与否。同样,我们不能假设伪越轨行为的

可能性是渐近分布卡方(这将是在正常回归的情况下)。时间观测的依赖性没有那么强,

所以一般认为PL估计将更加准确的情况。伪似然估计被用来日期作为一个实用的方便

(考虑到替代品还没有迄今一直容易获得),并且该方法不具有原则基础。只要有可能,

首选的方案是使用蒙特卡罗估计程序。

5.2。马尔科夫链蒙特卡罗最大似然估计(MCMCMLE)

最近的发展在蒙特卡洛估计技术指数随机图模型已提交和审查的一些作家(见

Snijders,2002; Handcock等人,2006; Snijders等人,在记者;沃瑟曼和罗宾斯,

2005),并在该专辑的其他文章中进一步讨论的,所以我们只包括一个简要这里总结。

首先,我们注意到,这些仿真模型可以在一个相对比较简单的方式来实现。无需进入

详细信息,模拟一组给定的参数值的曲线图中的分布可以通过多种算法来实现(例如,算

法中公知的统计更一般地,如对Metropolis算法)。仿真是在蒙特卡洛的最大似然估计

的心脏。用于模拟指数随机图形显示贡献程序已经描述了由施特劳斯(1986),Snijders

(2002)和Robins等。 (2005)。

虽然有不同的Monte Carlo估计技术(Snijders,2002; Hunter和Handcock,

2006)之间的变化,它们都基于同一个中央处理方法:模拟随机图形的距离参数值的起

始集分布的,并且随后的精通过图表的分配比对所观察到的曲线图,在该过程中的参数值

重复,直到估计稳定的参数。实现蒙特卡罗极大似然估计指数随机图模型最近的软件在这

款特别版的其他文件审查。

这两种估计和模拟研究提出的模型规范的问题马尔可夫随机图。Handcock(2003)

中定义的邻近简并为发生时的模式意味着只有几个图形具有比非常低概率的其他(通常这

些是完整的图形或空图表)。如果一个模型意味着只有这些相当无趣的结果,它不会是用

于模拟真实的网络是有用的。模拟研究表明,含有至少非零三星级参数的马尔可夫图形

MOD-埃尔斯往往表现出以下邻近简并比用两分的最高阶非零星参数(Robins等,

2005)。但是,列入三星级的参数往往是不够的尝试发现,重现高水平传递往往是在人类

社会结构观察模型时,除去近简并行为马尔可夫模型图,特别是(没有在Snijders等问

题的进一步讨论人,出版中)。这可能不会发生的伪似然估计这些问题,其实简单的说就

是近退化模型,伪似然估计可能是特别令人误解。在这些情况下,首要的问题是,没有明

确的具体的模型。

底线是,不同的蒙特卡洛估计技术,现已并在可行情况下,将被优先考虑。这些新方

法突出马尔可夫随机图模型的某些不足之处时,例如,传递效果都很强。如果发生这种情

况对于一个给定的数据集,研究人员拟合马尔可夫随机图模型会发现,它是不可能得到一

致的参数估计与蒙特卡罗最大似然估计(在技术上,估计过程不收敛)。这意味着,马氏

图表模型是不适合的数据。这是因为这样Snijders等人。(出版中)介绍了他们的新规格,

指数随机图模型,在4.6节中提到,而在其他文件中这一特别版的讨论。

6.一个简单的例子:一个马尔可夫随机图模型奇商务网

在这个特别版的其他文件提供的拟合指数随机图模型对数据的例子,所以在这里我们

提出了一个非常简短的例子。我们适应马尔可夫随机图模型中16的佛罗伦萨家庭业务联

系,在UCINET5可用的知名非定向网络(Borgatti等,1999)。(对于数据的上下文的完

整描述,请参阅帕吉特和安塞尔,1993年),该模型包含了边缘,二星级,三星级和三角

形的参数方程。 (4)。这种模式是不是变质了这组数据与参数估计顺利衔接。

MCMCMLE参数估计值列于表1中我们看到,密度和三角参数是显着的幅度与它们的标

准误差的比较。因此,10释义比较简单。负极密度参数表示沿出现相对很少,特别是如

果它们不是高阶结构,如分和三角形部分。正三角参数可以解释为提供证据该业务关系往

往发生在三角结构,因此群集到像的形式clique-。明星效应并不显著,所以也许不值得

解读。但参数值表明,有多个网络合作伙伴的倾向(正面两星的估计),但这一趋势(负

三星级参数)为上限。所以,尽管有网络的演员有多个合作伙伴的趋势,有几个演员有非

常多的合作伙伴。

7.结论

本文提供的配方和应用的指数随机图模型,社交网络的介绍阐述。我们都集中在介绍

这些模型的基本逻辑和推导。鉴于篇幅限制,我们只给出简要注意最近的事态发展将在其

他文章中的这个特别版进行讨论。

在弗兰克和施特劳斯(1986)的马尔可夫随机图模型最近的工作表明,他们可能是

不够的许多观察网络。在回顾发展这些模型这一点,我们有意没有超过上改进的型号规格

非常简要的评论。新规格Snijders等人。(印刷中)提供了在实际使用中的指数随机图模

型显着改善。他们还指出了前进的道路发展等创新规格。其中我们在本文的目的已经奠定

了基础,这些新的发展,这是在给定其他论文更全面的论述,在这个特别版的理解。

致谢

我们感谢匿名审稿人的有益意见改进早期版本的文件。这项研究提供了协助,从澳大

利亚研究理事会资助。


本文标签: 模型 网络 可能