GPU compatibility

What LLMs can run on 12 GB VRAM local agent GPU?

Local routing, agents, and model testing. Examples: RTX 3060 12GB, RTX 4070, RTX 5070.

Open calculator with this GPU preset

Clean local fits14

Offload / slower14

Too large6

Planning capacity10.5 GB clean VRAM

Recommended route: local with limits

This preset is useful locally, but model choice matters. Stay close to the green list for the best experience.

Use locally forsmall chat models, coding helpers, Telegram bots, routing layers, and selected 7B-14B Q4 models.

Watch out foryellow models may run slowly because they need RAM/offload or reduced context settings.

Fallback triggerUse hosted API or cloud GPU when the chosen model lands in yellow for production work.

Green

14 models fit inside the clean planning capacity.

Yellow

14 models can run with RAM/offload tradeoffs.

Red

Examples to avoid locally: Llama 3.1 70B Instruct, Qwen3-Next 80B-A3B Instruct, Qwen3-Coder-Next.

Best clean fits

Start here for responsive local inference.

14 models

Qwen3 4B Thinking 2507

4.02B Runs locally Q4 about 3.2 GB

Small local reasoning, routing, tool decisions, and lightweight coding on 6GB-8GB GPUs

Best local fit Open model page ->

Gemma 3 4B

4B Runs locally Q4 about 3.5 GB

Small multimodal local assistant and low-resource setups

Best local fit Open model page ->

Qwen2.5 Coder 7B

7B Runs locally Q4 about 5.5 GB

Small local coding assistant and agent tool generation

Best local fit Open model page ->

Mistral 7B

7B Runs locally Q4 about 5.5 GB

Fast local chat and simple agent tasks

Best local fit Open model page ->

Possible with offload

Use only when slower generation and tighter settings are acceptable.

14 models

gpt-oss 20B

20B RAM offload Q4 about 14 GB

Local reasoning, agent planning, and tool-use workflows on 16GB+ GPUs

Possible, slower Open model page ->

Devstral Small 2 24B

24B RAM offload Q4 about 15 GB

Software engineering agents, repo navigation, patch planning, and local coding workflows

Possible, slower Open model page ->

Qwen3.5 27B

27B RAM offload Q4 about 17 GB

24GB-class multimodal agent, coding assistant, and reasoning workloads

Possible, slower Open model page ->

Qwen3.6 27B

27B RAM offload Q4 about 17 GB

Newest 27B-class local multimodal coding, agent, and reasoning workloads on 24GB-class GPUs

Possible, slower Open model page ->

Full Q4 model fit table

Model	Size	Q4 need	Status	Calculator
Qwen3 4B Thinking 2507	4.02B	3.2 GB	Runs locally	Open calculator
Gemma 3 4B	4B	3.5 GB	Runs locally	Open calculator
Qwen2.5 Coder 7B	7B	5.5 GB	Runs locally	Open calculator
Mistral 7B	7B	5.5 GB	Runs locally	Open calculator
Llama 3.1 8B Instruct	8B	6 GB	Runs locally	Open calculator
Qwen3 8B	8B	6 GB	Runs locally	Open calculator
DeepSeek-R1-0528-Qwen3-8B	8B	6 GB	Runs locally	Open calculator
Qwen3-VL 8B Instruct	8B	6.5 GB	Runs locally	Open calculator
Qwen3.5 9B	9B	6.6 GB	Runs locally	Open calculator
Gemma 3 12B	12B	9 GB	Runs locally	Open calculator
Gemma 4 E4B	4B	9.6 GB	Runs locally	Open calculator
Qwen2.5 Coder 14B	14B	10.5 GB	Runs locally	Open calculator
DeepSeek R1 Distill Qwen 14B	14B	10.5 GB	Runs locally	Open calculator
Phi-4 14B	14B	10.5 GB	Runs locally	Open calculator
gpt-oss 20B	20B	14 GB	RAM offload	Open calculator
Devstral Small 2 24B	24B	15 GB	RAM offload	Open calculator
Qwen3.5 27B	27B	17 GB	RAM offload	Open calculator
Qwen3.6 27B	27B	17 GB	RAM offload	Open calculator
Gemma 3 27B	27B	18 GB	RAM offload	Open calculator
Qwen3 30B-A3B Instruct 2507	30.5B	19 GB	RAM offload	Open calculator
Qwen3-Coder 30B-A3B	30B	19 GB	RAM offload	Open calculator
GLM-4.7-Flash	30B	19 GB	RAM offload	Open calculator
Gemma 4 31B	31B	20 GB	RAM offload	Open calculator
Qwen3-VL 30B-A3B Instruct	30B	20 GB	RAM offload	Open calculator
Qwen2.5 Coder 32B	32B	21 GB	RAM offload	Open calculator
DeepSeek R1 Distill Qwen 32B	32B	21 GB	RAM offload	Open calculator
Qwen3.6 35B-A3B	35B	24 GB	RAM offload	Open calculator
Mixtral 8x7B	46.7B	28 GB	RAM offload	Open calculator
Llama 3.1 70B Instruct	70B	44 GB	Too large	Open calculator
Qwen3-Next 80B-A3B Instruct	80B	50 GB	Too large	Open calculator
Qwen3-Coder-Next	80B	52 GB	Too large	Open calculator
gpt-oss 120B	120B	65 GB	Too large	Open calculator
Devstral 2 123B	123B	75 GB	Too large	Open calculator
GLM-5.2	744B	466 GB	Too large	Open calculator