GPU compatibility

What LLMs can run on 8 GB VRAM mainstream GPU?

Good for 7B/8B Q4 models. Examples: RTX 3060 Ti, RTX 4060, RTX 3070.

Open calculator with this GPU preset

Clean local fits8

Offload / slower20

Too large6

Planning capacity6.5 GB clean VRAM

Recommended route: local with limits

This preset is useful locally, but model choice matters. Stay close to the green list for the best experience.

Use locally forsmall chat models, coding helpers, Telegram bots, routing layers, and selected 7B-14B Q4 models.

Watch out foryellow models may run slowly because they need RAM/offload or reduced context settings.

Fallback triggerUse hosted API or cloud GPU when the chosen model lands in yellow for production work.

Green

8 models fit inside the clean planning capacity.

Yellow

20 models can run with RAM/offload tradeoffs.

Red

Examples to avoid locally: Llama 3.1 70B Instruct, Qwen3-Next 80B-A3B Instruct, Qwen3-Coder-Next.

Best clean fits

Start here for responsive local inference.

8 models

Qwen3 4B Thinking 2507

4.02B Runs locally Q4 about 3.2 GB

Small local reasoning, routing, tool decisions, and lightweight coding on 6GB-8GB GPUs

Best local fit Open model page ->

Gemma 3 4B

4B Runs locally Q4 about 3.5 GB

Small multimodal local assistant and low-resource setups

Best local fit Open model page ->

Qwen2.5 Coder 7B

7B Runs locally Q4 about 5.5 GB

Small local coding assistant and agent tool generation

Best local fit Open model page ->

Mistral 7B

7B Runs locally Q4 about 5.5 GB

Fast local chat and simple agent tasks

Best local fit Open model page ->

Possible with offload

Use only when slower generation and tighter settings are acceptable.

20 models

Qwen3.5 9B

9B RAM offload Q4 about 6.6 GB

Modern multimodal local assistant, agent experiments, and coding support on mainstream GPUs

Possible, slower Open model page ->

Gemma 3 12B

12B RAM offload Q4 about 9 GB

Balanced multimodal local chat on 12GB+ GPUs

Possible, slower Open model page ->

Gemma 4 E4B

4B RAM offload Q4 about 9.6 GB

Efficient multimodal local assistant and edge-style agent workflows

Possible, slower Open model page ->

Qwen2.5 Coder 14B

14B RAM offload Q4 about 10.5 GB

Local coding, scripts, repo assistance, technical agents

Possible, slower Open model page ->

Full Q4 model fit table

Model	Size	Q4 need	Status	Calculator
Qwen3 4B Thinking 2507	4.02B	3.2 GB	Runs locally	Open calculator
Gemma 3 4B	4B	3.5 GB	Runs locally	Open calculator
Qwen2.5 Coder 7B	7B	5.5 GB	Runs locally	Open calculator
Mistral 7B	7B	5.5 GB	Runs locally	Open calculator
Llama 3.1 8B Instruct	8B	6 GB	Runs locally	Open calculator
Qwen3 8B	8B	6 GB	Runs locally	Open calculator
DeepSeek-R1-0528-Qwen3-8B	8B	6 GB	Runs locally	Open calculator
Qwen3-VL 8B Instruct	8B	6.5 GB	Runs locally	Open calculator
Qwen3.5 9B	9B	6.6 GB	RAM offload	Open calculator
Gemma 3 12B	12B	9 GB	RAM offload	Open calculator
Gemma 4 E4B	4B	9.6 GB	RAM offload	Open calculator
Qwen2.5 Coder 14B	14B	10.5 GB	RAM offload	Open calculator
DeepSeek R1 Distill Qwen 14B	14B	10.5 GB	RAM offload	Open calculator
Phi-4 14B	14B	10.5 GB	RAM offload	Open calculator
gpt-oss 20B	20B	14 GB	RAM offload	Open calculator
Devstral Small 2 24B	24B	15 GB	RAM offload	Open calculator
Qwen3.5 27B	27B	17 GB	RAM offload	Open calculator
Qwen3.6 27B	27B	17 GB	RAM offload	Open calculator
Gemma 3 27B	27B	18 GB	RAM offload	Open calculator
Qwen3 30B-A3B Instruct 2507	30.5B	19 GB	RAM offload	Open calculator
Qwen3-Coder 30B-A3B	30B	19 GB	RAM offload	Open calculator
GLM-4.7-Flash	30B	19 GB	RAM offload	Open calculator
Gemma 4 31B	31B	20 GB	RAM offload	Open calculator
Qwen3-VL 30B-A3B Instruct	30B	20 GB	RAM offload	Open calculator
Qwen2.5 Coder 32B	32B	21 GB	RAM offload	Open calculator
DeepSeek R1 Distill Qwen 32B	32B	21 GB	RAM offload	Open calculator
Qwen3.6 35B-A3B	35B	24 GB	RAM offload	Open calculator
Mixtral 8x7B	46.7B	28 GB	RAM offload	Open calculator
Llama 3.1 70B Instruct	70B	44 GB	Too large	Open calculator
Qwen3-Next 80B-A3B Instruct	80B	50 GB	Too large	Open calculator
Qwen3-Coder-Next	80B	52 GB	Too large	Open calculator
gpt-oss 120B	120B	65 GB	Too large	Open calculator
Devstral 2 123B	123B	75 GB	Too large	Open calculator
GLM-5.2	744B	466 GB	Too large	Open calculator