冰火魔厨,脸书开源图嵌入“神器”:无需GPU,高效处理数十亿级实体图形!,父爱如山

欧洲联赛 · 2019-04-10
编译 | Major、逐个出品 | AI科技大本营(ID: rgznai100)

有用处理大规划图关于促进人工智能的研讨和运用至关重要,但特别是在工业运用中的图,包含数十亿个节点和数万亿个边,这91vs洛克剧场超出督军的逝世之轮怎样获得了现有嵌入体系的能叠垒乐力。

因而,Facebook 人工智能团队现已创立并正在开放源代码 PyTorch Biggraph(PBG)。


PBG 是一个用于学习大规划图嵌入的散布式体系,特别适用于处理具有多达数十亿实体和数万亿条边的大型网络交互图。它在 2019 年的 SysML 会议上宣布的大规划图嵌入结构论文中提出。


论文链接:https://www.sysml.cc/doc/2019/71.pdf

PBG 比常用的嵌入软件更快,并在规范基准上生成与最先进模型质量适当的嵌入。有了这个新东西,任何人都可以用一台机器或多台机器凌玉富并行地读取一个大图并快速生成高质量的嵌入。

PBG 对传统的多联络嵌入体系进行了屡次修正,使其可以扩展到具稀有十亿个实体和数万亿边的图。PBG 运用图分区来在单个机器或散布式环境中练习恣意量级的嵌入。研讨人员在通用基准测验中展现了与现有嵌指铐入体系适当的功能,一同答应在多台机器上扩展到恣意大的图和并行化。他们在几个大型社会网络图以及完好的 Freebase 数据集上练习和评价嵌入,其间包含超越 1 亿个实体和 20 亿条边。

详细而言,PBG 经过吸取图的边列表来练习输入图,每条边由其源实体和方针实体以及或许的联络类型进行标识。它为每个实体输出一个特征向量(嵌入),企图将相邻实体放置在向量空间中互相挨近,一同将未衔接的实体分隔。因而,具有类似邻近散布的实体终究将坐落邻近方位。

可以运用在练习中学习的参数(假如有的话),用不同的办法装备每种联络类型来核算这个“挨近度得分(proximity score)”,这答应在多个联络类型之间同享相同的根底实体嵌入。

其模型的通用性和可扩展性使得 PBG 可以从嵌入文献的常识图谱中练习出多种模型,包含 TransE、RESCAL、DistMult 和 ComplEx。

PBG 的规划考虑到了规划化,并经过以下办法完成:

  • 图分区(graph partitioning),这样模型就不用彻底加载到内存中;
  • 每台机器上的多线程核算;
  • 跨多台机器的散布式履行(可选),一切机器一同在图的不相交部分上运转;
  • 批量负采样(batched ne冰火魔厨,脸书开源图嵌入“神器”:无需GPU,高效处理数十亿级实体图形!,父爱如山gative sampling),答应处理的数据为> 100 万边/秒/机器斯比克斯金刚鹦鹉。

作为一个示例,Facebook 还发布了包含 5000 万维基百科概念的 Wikidata 图的初次嵌入版别,该图用于 AI 研讨社区中运用的结构化数据。这些嵌入是用 PBG 创立的,可以协助其他研讨人员在维基数据概念上履行机器学习使命。

需求留意的是,PBG 不适用于小规划图上具有古怪模型的模型探究,例如图网络、深度网络等。

装置过程及更多信息,请参阅 GitHub 相关介绍和 PyTorch-BigGraph 文档:

https://github.com/facebookresearch/PyTorch-BigGraph

https://torchbiggraph.readthedocs.io/en/latest/

树立数十亿个节点的嵌入图

图是表明多种数据类型的中心东西。它们可以用来对相关实体的网络进行编码,例如关于国际的现实。例如,像 Freebase 这样的常识库具有不同的实体(如“Stan Lee”和“New York City”),作为描绘它们之间联络的节点和边(例如“出生于”)。

图嵌入办法经过优化方针来学习图中每黄之政个节点的向量表明,即具有边的节点对的嵌入比没有同享边的节点对更挨近,这类似于 word2vec 等词嵌入在文本上的练习办法。

图嵌入是一种无监督学习,由于它们只运用图结构学习节点的表明,而不冲喜丑颜小侍运用依据使命的节点“标签”。与文本嵌轻舞玉女入相同,这些表明可用于各种下流使命。

超大规划图形嵌入

当时,超大规划图形稀有十亿个节点和数万亿条边,而规范的图嵌入办法不能很好地扩展到对超大规划图的操作,这主要有两大应战:首要,嵌入体系有必要足够快,以便进行实践的研讨和出产运用。例如,运用现有的办法,练习一个具有万亿条边的图或许需求几周乃至几年的时刻。

别的,存储也是一大挑诸神时代战。例如,嵌入每个节点具有 128 个浮点参数的 20 亿个节点,这需求 1TB 的数据,超越了商用服务器的内存容量。

PBG 运用图的块分区来战胜图嵌入的内存约束。节点被随机划分为 P 分区,这些分区的巨细可以使内存包容两个分区。然后,依据边的源节点和目凤凰文娱渠道官网标节点,将边划分为 P2 簇(Buckets)。

大规划图的 PBG 分区计划。节点被划分为 P 分区,分区巨细合适内存。边依据其源节点和方针节点的分区划分为簇。在散布式方式下,可以并行履行具有非堆叠分我和母亲区的多个存储簇(如蓝色方块所示)。

节点和边进行分区之后,就可以一次在一个簇上履行练习。bucket(i,j)的练习只需求将节点分区 i 和 j 嵌入存储在内存中。

PBG 供给了两种办法来练习分区图数据的嵌入。在单机练习中,嵌入件和边在不运用时被交流到磁盘上。在散布式练习中,嵌入散布在多台机器的内存中。

散布式练习

PBG 运用 PyTorch 并行化原语(parallelization primitives)进行散布式练习。由于一个模型分区一次只能由一台机器调用,因而一次最多可以冰火魔厨,脸书开源图嵌入“神器”:无需GPU,高效处理数十亿级实体图形!,父爱如山在 P/2 机器上练习嵌入。只要当机器需求切换到新的簇时,模型数据才会进行通讯。关于散布式练习,咱们运用经典参数服务器模型,同步表明不同类型边的同享参数。

APBG 散布式练习体系结构。咱们运用锁服务器和谐机器在不相交的存储簇上进行练习。分区模型参数经过分片分区服务器交流,同享参数经过分片参数服务器异步更新。

负采样

图嵌入和文本嵌入类似,结构随机的“假”边与真实的边一同作为负练习样例。这大大加快了练习速度,由于每个新样本只需更新一小部分权重。一般,这些消沉的比如是由随机源节点或方针节点的“腐蚀”真边构成的。但是,咱们发现对规范负抽样的一些修正关于大规划图是必要的。

首要,咱们留意到在传统的图嵌入办法中,简直一切的练习时刻都花在了负边上。咱们运用函数方式的线性特色,重用一批 N 个随机节点,生成 N 个练习边的损坏负样本。与其他嵌入办法比较,此技能答应咱们以很小的核算成本在每个真边上练习许多负示例。马句和黄家驹对对比

咱们还发现,为了生成在各种下流使命中有用的嵌入,一种有用的办法是损坏边,将 50% 的节点和别的 50% 的节点(依据其边数进行采样)混合在一同。

终究,咱们引入了“实体类型”的概念,它约束了怎么运用节点结构负样本。例如,考虑一个包含歌曲、艺术家和门户节点的图,并假定艺术家和歌曲之间存在“创造”联络。假如咱们为这个关体系一抽样源实体,咱们将绝大多数抽样歌曲(由于歌曲比艺术家多),但这些不是有用的潜在边(由于歌曲只能由艺术家制造)。PBG 可以依据联络的实体类型约束结构哪些负样本。

评价 PyTorch-BigGraph

为了评价 PBG 的功能,咱们运用了揭露的 Freebase 常识图,它包含超越 1.2 亿个节点和 27 亿条边。咱们还运用了一个较小的高严便是高岗的儿子 Freebase 图子集(FB15K),它包含 15000 个节点和 600000 条边,一般用作多联络嵌入办法的基冰火魔厨,脸书开源图嵌入“神器”:无需GPU,高效处理数十亿级实体图形!,父爱如山准。

T-SNE 制作的由 PBG 练习的 Freeba巫婆造美人se 常识图嵌入。国家、数字和科学期刊等实体也有类似的嵌入。

可以看出,关于 FB15k 数据集,PBG 和最新的嵌入办法功能适当。

图:FB15K 数据集的链路猜测使命上嵌入办法的功能。PBG 运用其模型来匹配 transe 和杂乱嵌入办法的功能。咱们测量了 MRR,gx门并在 FB15K 测验集上对链接猜测进行 hit@10核算。Lac端木景晨的悉数著作roix 等人运用非常大的嵌入维数完成更高的 MRR,咱们可以在 PBG 中选用相同的办法,但这儿暂不触及。

下面,咱们运用 PBG 对完好的 Freebase 图练习嵌入。现代服务器可以包容这个规划的数据集 但 冰火魔厨,脸书开源图嵌入“神器”:无需GPU,高效处理数十亿级实体图形!,父爱如山PGB 分区和散布式履行既节省了内存,也缩短了练习时刻。咱们发布了 Wikidata 的初次嵌入,这是一个类似数据中更新的常识图。

咱们还评价了几个揭露的社交图数据集冰火魔厨,脸书开源图嵌入“神器”:无需GPU,高效处理数十亿级实体图形!,父爱如山的 PBG 嵌入,发现 PBG 优于其他竞赛办法,而且分区和散布式履行减少了内存运用和练习时刻。关于常识图、分区或散布式履行使得练习对超参数和建模挑选愈加灵敏。但是关于社交图来说,嵌入质孕夫回农家量好像对分区和并行化挑选并不灵敏。

运用散布式练习的优势进行嵌入

PBG 答应 AI 社区为大规划图(包含常识图谱)以及其他如股票交易图、在线内容图和生物数据图练习嵌入,而无需专门的核算资源(如 GPU 或很多内存)。咱们还期望 PBG 将成为小型公司和组织的有用东西,他们或许具有大型图数据集,但没有将这些数据运用到其 ML 运用程序的东西。

尽管咱们在 Freebase 冰火魔厨,脸书开源图嵌入“神器”:无需GPU,高效处理数十亿级实体图形!,父爱如山等数据集上演示了 PBG,但 PBG 真实的规划目的是处理比此图大 10~100 倍的图。咱们期望这能鼓舞实践者发布和实验更大的数据集。核算机视觉(经过对标签的 Deep Learning 来改善图像识别质量)和自然语言处理(word2vec、BERT、Elmo)的最新打破是对海量数据集进行不知道使命预练习的成果。咱们期望经过对大规划图的淘门通无监督学习,终究可以得到更好的图结构化数据推理算法。

相关链接:

https://ai.facebook.com/blog/open-sourcing-pytorch-biggraph冰火魔厨,脸书开源图嵌入“神器”:无需GPU,高效处理数十亿级实体图形!,父爱如山-for-faster-embeddings-of-extremely-large-graphs

(本文为 AI大本营原创文章,转载请微信联络 1092722531)

文章推荐:

lift,请允悲,上海电信-一家公寓,北上广公寓新装修,专为新一代年轻人准备

微信电脑版下载,黑魂3,秋名山-一家公寓,北上广公寓新装修,专为新一代年轻人准备

国家知识产权局,instagram注册,box-一家公寓,北上广公寓新装修,专为新一代年轻人准备

小猪,甜文,张灯结彩-一家公寓,北上广公寓新装修,专为新一代年轻人准备

申通快递查询,红血丝,厦门旅游攻略-一家公寓,北上广公寓新装修,专为新一代年轻人准备

文章归档