大模型新用途:增强异构图表示学习
原文链接:Paper Reading | 大模型新用途:增强异构图表示学习
论文链接:
https://arxiv.org/pdf/2412.08038v2
“ 图表示学习方法在处理复杂非欧几里得数据时,通过捕捉图结构中的关系和特征非常有效。但传统方法处理异质图(包含多种类型节点和边)时面临挑战,因为数据来源多样且性质复杂。现有的异质图神经网络(HGNN)虽有成果,但需要节点和边类型的先验知识以及统一的节点特征格式,限制了其适用性。基于大型语言模型(LLM)的图表示学习方法虽提供了新思路,但常忽略异质图数据且需要大量预处理。本文提出一种新方法,结合LLM和GNN的优势,无需类型信息或特殊预处理就能处理任何格式和类型的节点和边的图数据,通过理论分析和实验验证了该方法的有效性,代码和附录可在补充材料中找到。”
1 背景
图表示学习方法对处理复杂非欧几里得数据很有效,能对图结构内的复杂关系建模。但现实场景中的图数据往往是异质的,如在社交网络分析、推荐系统、交通预测等场景。一般的图表示学习方法难以处理这种异质性。HGNN被开发出来处理异质图数据,通过基于元路径和无元路径的方法来处理不同节点和边类型,但需要节点和边类型的先验知识或者一致的节点特征格式,这在一些场景(如开源情报分析、物联网日志分析等)中受到限制。基于LLM的图表示学习方法出现,将LLM的背景知识和数据处理能力融入图表示学习,可处理不同类型的图表示,但主要关注同构图表示学习任务,忽略了异质图数据处理,且往往需要对图数据进行一定程度的预处理。
2 问题定义
传统的图表示学习方法在处理异质图数据时存在局限性,尤其是在缺乏节点和边类型的先验知识或者节点特征格式不统一的情况下。现有的HGNN方法需要这些先验知识和统一格式,基于LLM的图表示学习方法虽能处理多种图表示但忽视异质图数据且需要预处理。因此需要一种能够有效处理异质图数据,无需额外数据清理和标注,且能处理节点属性不统一情况的方法。
3 方法
GHGRL框架包含三个模块,用于处理异质图G = {V, E}(G包含不同表示格式的节点,相邻节点间的边也可能有不同类型,且节点和边的类型未知)的图表示学习任务。
Type Generation(类型生成)模块:由于不知道数据集中节点类型的数量和详细信息,直接生成类型。随机选择节点属性样本的子集X={x_{i}}输入到作为骨干LLM的Llama 3中,得到基于格式的节点类型集Phi^{fmt}={s_{j}^{fmt}}和基于内容的节点类型集Phi^{cont}={s_{j}^{cont}},其关系如公式
LLM Processing(LLM处理)模块:用LLM处理数据获取节点特征,估计每个节点属性特征的格式类型和内容类型。对每个节点v的特征x_{v}进行分析,得到节点的描述文本h_{v}^{desc}、格式类型估计结果phi^{fmt}(v)、格式类型估计置信度得分c^{fmt}(v)、内容类型估计结果phi^{cont}(v)、内容类型估计置信度得分c^{cont}(v)、估计原因的描述文本h_{v}^{reas}。通过修改提示让LLM输出尽可能多的节点属性信息,还要求模型提供对节点类型估计的推理描述。之后采用语言模型句子转换器根据h_{v}^{desc}和h_{v}^{reas}生成固定长度的节点表示h_{v}。
Learning with GNN(用GNN学习)模块:专门设计了参数自适应GNN(PAGNN)将LLM的估计整合到图表示学习中。PAGNN的每层包括三个组件:
Format alignment block(格式对齐块):目的是对齐不同形式表示的节点特征。利用矩阵W^{fmt}和B^{fmt}作为网络参数,根据节点的格式类型估计结果phi^{fmt}对输入节点表示矩阵H进行计算得到H^{fmt[v]}。考虑到LLM对节点类型估计可能存在不准确和误判,引入生成的置信度得分c^{fmt}(v)对计算进行优化。
Content processing block(内容处理块):在格式对齐块之后,处理不同生成节点内容类型的节点特征并在它们之间进行消息传递。根据由LLM生成的节点内容类型进行计算得到H^{cont [v]},然后进行消息传递得到{H}^{cont [v]},确保在聚合操作中,根据边的源节点和目标节点的内容类型将节点表示乘以相应的参数矩阵,以区分不同的节点类型和边类型。
Regular learning block(常规学习块):跟在前两个块之后,类似于常规的GCN层,采用相同的数据传播方法来学习数据中的共同特征,进行计算得到H^{rgn[v]}。PAGNN由多个这样的层组成,在l^{fmt}层和l^{cont}层之后分别移除格式对齐块和内容处理块。
4 实验
Baselines(基准方法):与三类基准方法进行比较,包括一般的GNN骨干网络(GCN、GAT)、HGNN方法(HAN、MAGNN、SeHGNN、PSHGCN)、更广义的结合GNN和LLM的图表示学习方法(TAPE、OFA、GOFA)。
Datasets(数据集):使用现有的常用异质和同构图表示学习数据集,以及新构建的更具挑战性的异质图数据集。具体包括IMDB、DBLP、ACM、Wiki - CS数据集,还构建了IMDB数据集的随机信息替换(IMDB - RIR)和DBLP数据集的随机信息删除(DBLP - RID)数据集。对于新构建的数据集,IMDB - RIR是通过在IMDB数据集节点的文本信息上进行谷歌搜索,取前10个搜索结果并随机替换IMDB数据集的节点属性;DBLP - RID是随机删除DBLP数据集节点的部分文本信息。
其他设置:遵循OFA中的基本设置,使用Llama 3作为LLM以确保公平比较,调整数据集中训练数据的比例以比较不同条件下的测试结果,所有实验结果均进行五次独立运行并报告均值±标准差。
4.1 实验结果
异质图数据集结果:在IMDB、DBLP和ACM数据集上进行实验,由于本文方法不使用异质图数据集中包含的节点类型或边类型信息作为输入,所以与使用和不使用此信息的HGNN基准方法进行比较(不使用此信息的方法标记为“-w”)。结果表明,本文方法在所有数据集上都取得了最佳性能或与使用额外类型信息的方法相当的性能。
具有额外多样性的异质图数据集结果:在IMDB - RIR和DBLP - RID数据集上进行实验,由于这些数据集的节点特征被修改,不再遵循标准格式,GNN和基于HGNN的方法无法处理,所以未与这些方法比较,直接用LLM(Llama 3)对节点进行分类。结果显示,虽然基于LLM的方法能处理新构建的数据集,但GHGRL仍取得了最佳性能,显著优于其他基准方法。并且将LLM处理模块集成到其他HGNN方法中在IMDB - RIR数据集上进一步比较,GHGRL仍然表现最佳。
同构图数据集结果:在Wiki - CS同构图数据集上进行方法比较,结果表明GHGRL在同构图上也能取得更好的性能。
4.2 深入分析
特征可视化:使用t - SNE方法在ACM数据集上对模型不同阶段的节点特征进行可视化。结果显示,在输入阶段节点特征高度混合,经LLM处理后呈现多个分散的簇,但这种分组与期望的节点三类分类不完全对齐,最后经PAGNN处理后,模型根据节点类别成功将节点分为三个不同的组,表明PAGNN进一步优化了从LLM输出中提取的信息。
LLM处理分析:报告了模型在IMDB、DBLP和ACM数据集上估计的节点类型与实际节点类型之间匹配的统计数据。结果表明,模型不能准确估计所有类型,但比较实验结果显示GHGRL模型优于其他模型,说明GHGRL有效利用PAGNN适应LLM处理模块的估计,即使分类与实际数据集存在差异,模型仍能取得满意的性能。
5 结论
本文提出了一种创新的GHGRL方法,通过自适应参数选择方法整合LLM和GNN,增强了处理异质图数据的泛化能力,为处理更复杂和不规则结构的图数据提供了新视角。