flash-attention

Flash Attention implemented in PyTorch, Numba, CUDA, JAX, Triton

References:

Citations

@inproceedings{dao2022flashattention,
  title={Flash{A}ttention: Fast and Memory-Efficient Exact Attention with {IO}-Awareness},
  author={Dao, Tri and Fu, Daniel Y. and Ermon, Stefano and Rudra, Atri and R{\'e}, Christopher},
  booktitle={Advances in Neural Information Processing Systems (NeurIPS)},
  year={2022}
}
@inproceedings{dao2023flashattention2,
  title={Flash{A}ttention-2: Faster Attention with Better Parallelism and Work Partitioning},
  author={Dao, Tri},
  booktitle={International Conference on Learning Representations (ICLR)},
  year={2024}
}

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
flash-attn.py		flash-attn.py
flash_attention.cu		flash_attention.cu
naive_attention.cu		naive_attention.cu

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

flash-attention

Citations

About

Releases

Packages

Languages

License

ubermenchh/flash-attention

Folders and files

Latest commit

History

Repository files navigation

flash-attention

Citations

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages