CPVT

Conditional Position Encoding Vision Transformer

Computer VisionIntroduced 20002 papers

Description

CPVT, or Conditional Position Encoding Vision Transformer, is a type of vision transformer which utilizes conditional positional encoding. Other than the new encodings, it follows the same architecture of ViT and DeiT.

Papers Using This Method

Heracles: A Hybrid SSM-Transformer Model for High-Resolution Image and Time-Series Analysis2024-03-26 Conditional Positional Encodings for Vision Transformers2021-02-22