OGB-LSC: A Large-Scale Challenge for Machine Learning on Graphs

Weihua Hu, Matthias Fey, Hongyu Ren, Maho Nakata, Yuxiao Dong, Jure Leskovec

2021-03-17Knowledge Graphs Graph Regression Graph Learning Node Classification BIG-bench Machine Learning Link Prediction

Paper PDF Code Code Code Code(official)Code Code

Abstract

Enabling effective and efficient machine learning (ML) over large-scale graph data (e.g., graphs with billions of edges) can have a great impact on both industrial and scientific applications. However, existing efforts to advance large-scale graph ML have been largely limited by the lack of a suitable public benchmark. Here we present OGB Large-Scale Challenge (OGB-LSC), a collection of three real-world datasets for facilitating the advancements in large-scale graph ML. The OGB-LSC datasets are orders of magnitude larger than existing ones, covering three core graph learning tasks -- link prediction, graph regression, and node classification. Furthermore, we provide dedicated baseline experiments, scaling up expressive graph ML models to the massive datasets. We show that expressive models significantly outperform simple scalable baselines, indicating an opportunity for dedicated efforts to further improve graph ML at scale. Moreover, OGB-LSC datasets were deployed at ACM KDD Cup 2021 and attracted more than 500 team registrations globally, during which significant performance improvements were made by a variety of innovative techniques. We summarize the common techniques used by the winning solutions and highlight the current best practices in large-scale graph ML. Finally, we describe how we have updated the datasets after the KDD Cup to further facilitate research advances. The OGB-LSC datasets, baseline code, and all the information about the KDD Cup are available at https://ogb.stanford.edu/docs/lsc/ .

Results

Task	Dataset	Metric	Value	Model
Knowledge Graphs	WikiKG90M-LSC	Test MRR	85.48	TransE-Concat
Knowledge Graphs	WikiKG90M-LSC	Validation MRR	0.8494	TransE-Concat
Knowledge Graphs	WikiKG90M-LSC	Test MRR	0.8637	ComplEx-Concat
Knowledge Graphs	WikiKG90M-LSC	Validation MRR	0.8425	ComplEx-Concat
Knowledge Graphs	WikiKG90M-LSC	Test MRR	0.7186	ComplEx-RoBERTa
Knowledge Graphs	WikiKG90M-LSC	Validation MRR	0.7052	ComplEx-RoBERTa
Knowledge Graphs	WikiKG90M-LSC	Test MRR	0.6288	TransE-RoBERTa
Knowledge Graphs	WikiKG90M-LSC	Validation MRR	0.6039	TransE-RoBERTa
Graph Regression	PCQM4Mv2-LSC	Test MAE	0.176	MLP-Fingerprint
Graph Regression	PCQM4Mv2-LSC	Validation MAE	0.1753	MLP-Fingerprint
Graph Regression	PCQM4M-LSC	Test MAE	14.87	GIN-virtual
Graph Regression	PCQM4M-LSC	Validation MAE	0.1396	GIN-virtual
Graph Regression	PCQM4M-LSC	Test MAE	15.79	GCN-Virtual
Graph Regression	PCQM4M-LSC	Validation MAE	0.1536	GCN-Virtual
Graph Regression	PCQM4M-LSC	Test MAE	16.78	GIN
Graph Regression	PCQM4M-LSC	Test MAE	18.38	GCN
Graph Regression	PCQM4M-LSC	Validation MAE	0.1684	GCN
Graph Regression	PCQM4M-LSC	Test MAE	20.68	MLP-fingerprint
Graph Regression	PCQM4M-LSC	Validation MAE	0.2044	MLP-fingerprint
Node Classification	MAG240M-LSC	Test Accuracy	68.94	R-GraphSAGE (NS)
Node Classification	MAG240M-LSC	Test Accuracy	66.63	GAT (NS)
Node Classification	MAG240M-LSC	Test Accuracy	66.25	GraphSAGE (NS)
Node Classification	MAG240M-LSC	Test Accuracy	66.09	SIGN
Node Classification	MAG240M-LSC	Validation Accuracy	66.64	SIGN
Knowledge Graph Completion	WikiKG90M-LSC	Test MRR	85.48	TransE-Concat
Knowledge Graph Completion	WikiKG90M-LSC	Validation MRR	0.8494	TransE-Concat
Knowledge Graph Completion	WikiKG90M-LSC	Test MRR	0.8637	ComplEx-Concat
Knowledge Graph Completion	WikiKG90M-LSC	Validation MRR	0.8425	ComplEx-Concat
Knowledge Graph Completion	WikiKG90M-LSC	Test MRR	0.7186	ComplEx-RoBERTa
Knowledge Graph Completion	WikiKG90M-LSC	Validation MRR	0.7052	ComplEx-RoBERTa
Knowledge Graph Completion	WikiKG90M-LSC	Test MRR	0.6288	TransE-RoBERTa
Knowledge Graph Completion	WikiKG90M-LSC	Validation MRR	0.6039	TransE-RoBERTa
Large Language Model	WikiKG90M-LSC	Test MRR	85.48	TransE-Concat
Large Language Model	WikiKG90M-LSC	Validation MRR	0.8494	TransE-Concat
Large Language Model	WikiKG90M-LSC	Test MRR	0.8637	ComplEx-Concat
Large Language Model	WikiKG90M-LSC	Validation MRR	0.8425	ComplEx-Concat
Large Language Model	WikiKG90M-LSC	Test MRR	0.7186	ComplEx-RoBERTa
Large Language Model	WikiKG90M-LSC	Validation MRR	0.7052	ComplEx-RoBERTa
Large Language Model	WikiKG90M-LSC	Test MRR	0.6288	TransE-RoBERTa
Large Language Model	WikiKG90M-LSC	Validation MRR	0.6039	TransE-RoBERTa
Inductive knowledge graph completion	WikiKG90M-LSC	Test MRR	85.48	TransE-Concat
Inductive knowledge graph completion	WikiKG90M-LSC	Validation MRR	0.8494	TransE-Concat
Inductive knowledge graph completion	WikiKG90M-LSC	Test MRR	0.8637	ComplEx-Concat
Inductive knowledge graph completion	WikiKG90M-LSC	Validation MRR	0.8425	ComplEx-Concat
Inductive knowledge graph completion	WikiKG90M-LSC	Test MRR	0.7186	ComplEx-RoBERTa
Inductive knowledge graph completion	WikiKG90M-LSC	Validation MRR	0.7052	ComplEx-RoBERTa
Inductive knowledge graph completion	WikiKG90M-LSC	Test MRR	0.6288	TransE-RoBERTa
Inductive knowledge graph completion	WikiKG90M-LSC	Validation MRR	0.6039	TransE-RoBERTa

Abstract

Results

Task	Dataset	Metric	Value	Model
Knowledge Graphs	WikiKG90M-LSC	Test MRR	85.48	TransE-Concat
Knowledge Graphs	WikiKG90M-LSC	Validation MRR	0.8494	TransE-Concat
Knowledge Graphs	WikiKG90M-LSC	Test MRR	0.8637	ComplEx-Concat
Knowledge Graphs	WikiKG90M-LSC	Validation MRR	0.8425	ComplEx-Concat
Knowledge Graphs	WikiKG90M-LSC	Test MRR	0.7186	ComplEx-RoBERTa
Knowledge Graphs	WikiKG90M-LSC	Validation MRR	0.7052	ComplEx-RoBERTa
Knowledge Graphs	WikiKG90M-LSC	Test MRR	0.6288	TransE-RoBERTa
Knowledge Graphs	WikiKG90M-LSC	Validation MRR	0.6039	TransE-RoBERTa
Graph Regression	PCQM4Mv2-LSC	Test MAE	0.176	MLP-Fingerprint
Graph Regression	PCQM4Mv2-LSC	Validation MAE	0.1753	MLP-Fingerprint
Graph Regression	PCQM4M-LSC	Test MAE	14.87	GIN-virtual
Graph Regression	PCQM4M-LSC	Validation MAE	0.1396	GIN-virtual
Graph Regression	PCQM4M-LSC	Test MAE	15.79	GCN-Virtual
Graph Regression	PCQM4M-LSC	Validation MAE	0.1536	GCN-Virtual
Graph Regression	PCQM4M-LSC	Test MAE	16.78	GIN
Graph Regression	PCQM4M-LSC	Test MAE	18.38	GCN
Graph Regression	PCQM4M-LSC	Validation MAE	0.1684	GCN
Graph Regression	PCQM4M-LSC	Test MAE	20.68	MLP-fingerprint
Graph Regression	PCQM4M-LSC	Validation MAE	0.2044	MLP-fingerprint
Node Classification	MAG240M-LSC	Test Accuracy	68.94	R-GraphSAGE (NS)
Node Classification	MAG240M-LSC	Test Accuracy	66.63	GAT (NS)
Node Classification	MAG240M-LSC	Test Accuracy	66.25	GraphSAGE (NS)
Node Classification	MAG240M-LSC	Test Accuracy	66.09	SIGN
Node Classification	MAG240M-LSC	Validation Accuracy	66.64	SIGN
Knowledge Graph Completion	WikiKG90M-LSC	Test MRR	85.48	TransE-Concat
Knowledge Graph Completion	WikiKG90M-LSC	Validation MRR	0.8494	TransE-Concat
Knowledge Graph Completion	WikiKG90M-LSC	Test MRR	0.8637	ComplEx-Concat
Knowledge Graph Completion	WikiKG90M-LSC	Validation MRR	0.8425	ComplEx-Concat
Knowledge Graph Completion	WikiKG90M-LSC	Test MRR	0.7186	ComplEx-RoBERTa
Knowledge Graph Completion	WikiKG90M-LSC	Validation MRR	0.7052	ComplEx-RoBERTa
Knowledge Graph Completion	WikiKG90M-LSC	Test MRR	0.6288	TransE-RoBERTa
Knowledge Graph Completion	WikiKG90M-LSC	Validation MRR	0.6039	TransE-RoBERTa
Large Language Model	WikiKG90M-LSC	Test MRR	85.48	TransE-Concat
Large Language Model	WikiKG90M-LSC	Validation MRR	0.8494	TransE-Concat
Large Language Model	WikiKG90M-LSC	Test MRR	0.8637	ComplEx-Concat
Large Language Model	WikiKG90M-LSC	Validation MRR	0.8425	ComplEx-Concat
Large Language Model	WikiKG90M-LSC	Test MRR	0.7186	ComplEx-RoBERTa
Large Language Model	WikiKG90M-LSC	Validation MRR	0.7052	ComplEx-RoBERTa
Large Language Model	WikiKG90M-LSC	Test MRR	0.6288	TransE-RoBERTa
Large Language Model	WikiKG90M-LSC	Validation MRR	0.6039	TransE-RoBERTa
Inductive knowledge graph completion	WikiKG90M-LSC	Test MRR	85.48	TransE-Concat
Inductive knowledge graph completion	WikiKG90M-LSC	Validation MRR	0.8494	TransE-Concat
Inductive knowledge graph completion	WikiKG90M-LSC	Test MRR	0.8637	ComplEx-Concat
Inductive knowledge graph completion	WikiKG90M-LSC	Validation MRR	0.8425	ComplEx-Concat
Inductive knowledge graph completion	WikiKG90M-LSC	Test MRR	0.7186	ComplEx-RoBERTa
Inductive knowledge graph completion	WikiKG90M-LSC	Validation MRR	0.7052	ComplEx-RoBERTa
Inductive knowledge graph completion	WikiKG90M-LSC	Test MRR	0.6288	TransE-RoBERTa
Inductive knowledge graph completion	WikiKG90M-LSC	Validation MRR	0.6039	TransE-RoBERTa

OGB-LSC: A Large-Scale Challenge for Machine Learning on Graphs

Abstract

Results

Related Papers

OGB-LSC: A Large-Scale Challenge for Machine Learning on Graphs

Abstract

Results

Related Papers