Interpretability Techniques for Deep Learning on CausalGym

Metric: Log odds-ratio (pythia-6.9b) (higher is better)

LeaderboardDataset

Loading chart...

Results

Sort:

#	Model↕	Log odds-ratio (pythia-6.9b)▼	Extra Data	Paper	Date↕	Code
1	DAS	9.95	No	CausalGym: Benchmarking causal interpretability ...	2024-02-19	Code
2	Linear probe	3.42	No	CausalGym: Benchmarking causal interpretability ...	2024-02-19	Code
3	Difference-in-means	2.91	No	CausalGym: Benchmarking causal interpretability ...	2024-02-19	Code
4	k-means	1.87	No	CausalGym: Benchmarking causal interpretability ...	2024-02-19	Code
5	PCA	1.81	No	CausalGym: Benchmarking causal interpretability ...	2024-02-19	Code
6	LDA	0.27	No	CausalGym: Benchmarking causal interpretability ...	2024-02-19	Code
7	Random	0.01	No	CausalGym: Benchmarking causal interpretability ...	2024-02-19	Code

#1DASSOTA
9.95
Log odds-ratio (pythia-6.9b)· 2024-02-19
CausalGym: Benchmarking causal interpretability methods on linguistic tasks Code
#2Linear probe
3.42
Log odds-ratio (pythia-6.9b)· 2024-02-19
CausalGym: Benchmarking causal interpretability methods on linguistic tasks Code
#3Difference-in-means
2.91
Log odds-ratio (pythia-6.9b)· 2024-02-19
CausalGym: Benchmarking causal interpretability methods on linguistic tasks Code
#4k-means
1.87
Log odds-ratio (pythia-6.9b)· 2024-02-19
CausalGym: Benchmarking causal interpretability methods on linguistic tasks Code
#5PCA
1.81
Log odds-ratio (pythia-6.9b)· 2024-02-19
CausalGym: Benchmarking causal interpretability methods on linguistic tasks Code
#6LDA
0.27
Log odds-ratio (pythia-6.9b)· 2024-02-19
CausalGym: Benchmarking causal interpretability methods on linguistic tasks Code
#7Random
0.01
Log odds-ratio (pythia-6.9b)· 2024-02-19
CausalGym: Benchmarking causal interpretability methods on linguistic tasks Code