pruning

Here are 303 public repositories matching this topic...

neuralmagic / deepsparse

Sparsity-aware deep learning inference runtime for CPUs

nlp performance computer-vision inference machinelearning pruning object-detection pretrained-models quantization cpus onnx sparsification llm-inference deepsparse

Updated Jun 2, 2025
Python

VainF / Torch-Pruning

Star

[CVPR 2023] DepGraph: Towards Any Structural Pruning; LLMs, Vision Foundation Models, etc.

transformers vision pruning model-compression efficient-deep-learning llm

Updated Jul 4, 2025
Python

intel / neural-compressor

Star

SOTA low-bit LLM quantization (INT8/FP8/INT4/FP4/NF4) & sparsity; leading model compression techniques on TensorFlow, PyTorch, and ONNX Runtime

sparsity pruning quantization knowledge-distillation auto-tuning int8 low-precision quantization-aware-training post-training-quantization awq int4 large-language-models gptq smoothquant sparsegpt fp4 mxformat

Updated Aug 19, 2025
Python

quic / aimet

Star

AIMET is a library that provides advanced quantization and compression techniques for trained neural network models.

open-source machine-learning opensource deep-neural-networks compression deep-learning pruning quantization auto-ml network-quantization network-compression

Updated Aug 20, 2025
Python

micronet, a model compression and deploy lib. compression: 1、quantization: quantization-aware-training(QAT), High-Bit(>2b)(DoReFa/Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference)、Low-Bit(≤2b)/Ternary and Binary(TWN/BNN/XNOR-Net); post-training-quantization(PTQ), 8-bit(tensorrt); 2、 pruning: normal、reg…

Updated May 6, 2025
Python

neuralmagic / sparseml

Star

Libraries for applying sparsification recipes to neural networks with a few lines of code, enabling faster and smaller models

nlp sparsity tensorflow keras pytorch deep-learning-algorithms image-classification deep-learning-library pruning object-detection transfer-learning automl computer-vision-algorithms onnx deep-learning-models sparsification pruning-algorithms smaller-models sparsification-recipes

Updated Jun 2, 2025
Python

open-mmlab / mmrazor

Star

OpenMMLab Model Compression Toolbox and Benchmark.

detection pytorch classification segmentation pruning darts quantization nas knowledge-distillation spos autoslim

Updated Jun 11, 2024
Python

PaddlePaddle / PaddleSlim

Star

PaddleSlim is an open-source library for deep model compression and architecture search.

sparsity compression detection transformer segmentation pruning quantization nas bert tensorrt distillation ernie yolov5 yolov6 yolov7

Updated Jul 7, 2025
Python

tensorflow / model-optimization

Star

A toolkit to optimize ML models for deployment for Keras and TensorFlow, including quantization and pruning.

machine-learning sparsity compression deep-learning tensorflow optimization keras ml pruning quantization model-compression quantized-training quantized-neural-networks quantized-networks

Updated Aug 11, 2025
Python

openvinotoolkit / nncf

Star

Neural Network Compression Framework for enhanced OpenVINO™ inference

nlp sparsity compression deep-learning tensorflow transformers pytorch classification pruning object-detection quantization semantic-segmentation bert onnx openvino mixed-precision-training quantization-aware-training llm genai

Updated Aug 19, 2025
Python

horseee / LLM-Pruner

Star

[NeurIPS 2023] LLM-Pruner: On the Structural Pruning of Large Language Models. Support Llama-3/3.1, Llama-2, LLaMA, BLOOM, Vicuna, Baichuan, TinyLlama, etc.

bloom compression pruning llama language-model vicuna baichuan pruning-algorithms llm chatglm neurips-2023 llama-2 llama3

Updated Oct 7, 2024
Python

jacobgil / pytorch-pruning

Star

PyTorch Implementation of [1611.06440] Pruning Convolutional Neural Networks for Resource Efficient Inference

deep-learning pytorch pruning

Updated Jul 12, 2019
Python

alibaba / TinyNeuralNetwork

Star

TinyNeuralNetwork is an efficient and easy-to-use deep learning model compression framework.

deep-neural-networks deep-learning pytorch pruning model-compression model-converter quantization-aware-training post-training-quantization

Updated May 26, 2025
Python

SforAiDl / KD_Lib

Star

A Pytorch Knowledge Distillation library for benchmarking and extending works in the domains of Knowledge Distillation, Pruning, and Quantization.

benchmarking data-science machine-learning pytorch deep-learning-library pruning quantization algorithm-implementations knowledge-distillation model-compression

Updated Mar 1, 2023
Python

princeton-nlp / LLM-Shearing

Star

[ICLR 2024] Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning

nlp efficiency pruning llama pre-training llm llama2

Updated Mar 4, 2024
Python

he-y / filter-pruning-geometric-median

Star

Filter Pruning via Geometric Median for Deep Convolutional Neural Networks Acceleration (CVPR 2019 Oral)

pytorch pruning model-compression

Updated Aug 31, 2023
Python

ModelTC / LightCompress

Star

[EMNLP 2024 Industry Track] This is the official PyTorch implementation of "LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit".