Gradient Checkpointing

GeneralIntroduced 200014 papers

Description

Gradient Checkpointing is a method used for reducing the memory footprint when training deep neural networks, at the cost of having a small increase in computation time.

Papers Using This Method

Optimal Gradient Checkpointing for Sparse and Recurrent Architectures using Off-Chip Memory2024-12-16 Look Every Frame All at Once: Video-Ma$^2$mba for Efficient Long-form Video Understanding with Multi-Axis Gradient Checkpointing2024-11-29 Superior Scoring Rules for Probabilistic Evaluation of Single-Label Multi-Class Classification Tasks2024-07-25 A Study of Optimizations for Fine-tuning Large Language Models2024-06-04 DITTO: Diffusion Inference-Time T-Optimization for Music Generation2024-01-22 CAPIVARA: Cost-Efficient Approach for Improving Multilingual CLIP Performance on Low-Resource Languages2023-10-20 Unsupervised Discovery of Interpretable Directions in h-space of Pre-trained Diffusion Models2023-10-15 DISTFLASHATTN: Distributed Memory-efficient Attention for Long-context LLMs Training2023-10-05 Colossal-Auto: Unified Automation of Parallelization and Activation Checkpoint for Large-scale Models2023-02-06 GLEAM: Greedy Learning for Large-Scale Accelerated MRI Reconstruction2022-07-18 Combined Scaling for Zero-shot Transfer Learning2021-11-19 Doc2Dict: Information Extraction as Text Generation2021-05-16 Self-supervised Pretraining of Visual Features in the Wild2021-03-02 Training Deep Nets with Sublinear Memory Cost2016-04-21