Gradient Sparsification

GeneralIntroduced 200038 papers

Description

Gradient Sparsification is a technique for distributed training that sparsifies stochastic gradients to reduce the communication cost, with minor increase in the number of iterations. The key idea behind our sparsification technique is to drop some coordinates of the stochastic gradient and appropriately amplify the remaining coordinates to ensure the unbiasedness of the sparsified stochastic gradient. The sparsification approach can significantly reduce the coding length of the stochastic gradient and only slightly increase the variance of the stochastic gradient.

Papers Using This Method

Mobility-Aware Asynchronous Federated Learning with Dynamic Sparsification2025-06-08 Dynamic Gradient Sparsification Training for Few-Shot Fine-tuning of CT Lymph Node Segmentation Foundation Model2025-03-02 Sparse Incremental Aggregation in Satellite Federated Learning2025-01-20 Regularized Top-$k$: A Bayesian Framework for Gradient Sparsification2025-01-10 DQRM: Deep Quantized Recommendation Models2024-10-26 Age-of-Gradient Updates for Federated Learning over Random Access Channels2024-10-15 Novel Gradient Sparsification Algorithm via Bayesian Inference2024-09-23 Preserving Near-Optimal Gradient Sparsification Cost for Scalable Distributed Deep Learning2024-02-21 JointSQ: Joint Sparsification-Quantization for Distributed Learning2024-01-01 RS-DGC: Exploring Neighborhood Statistics for Dynamic Gradient Compression on Remote Sensing Image Interpretation2023-12-29 MiCRO: Near-Zero Cost Gradient Sparsification for Scaling and Accelerating Distributed DNN Training2023-10-02 Gradient Sparsification For Masked Fine-Tuning of Transformers2023-07-19 DEFT: Exploiting Gradient Norm Difference between Model Layers for Scalable Gradient Sparsification2023-07-07 Gradient Sparsification for Efficient Wireless Federated Learning with Differential Privacy2023-04-09 Efficient and Secure Federated Learning for Financial Applications2023-03-15 On the Interaction Between Differential Privacy and Gradient Compression in Deep Learning2022-11-01 Downlink Compression Improves TopK Sparsification2022-09-30 Empirical Analysis on Top-k Gradient Sparsification for Distributed Deep Learning in a Supercomputing Environment2022-09-18 Near-Optimal Sparse Allreduce for Distributed Deep Learning2022-01-19 Sparsified Secure Aggregation for Privacy-Preserving Federated Learning2021-12-23