Model requirements

Local LLM GPU requirements by model

Use this index to choose a local model by practical VRAM tier, use case, Ollama command, and common GPU fit. Open a model page when you need the full GPU table.

Open interactive calculator

Models covered34

Q4 memory range3.2-466 GB

Coding models27

Agent-ready models31

8GB GPU

Start with 4B-8B Q4 models. Look for green 8GB badges.

12GB GPU

Good floor for local agents and 7B/14B models with headroom checks.

24GB+ GPU

Use for larger coding models, longer context, and heavier local workflows.

Small local models

Best starting point for 8GB to 12GB GPUs

9 models

Qwen3 4B Thinking 2507

4.02B Q4 about 3.2 GB Alibaba CodingAgentsReasoning

Small local reasoning, routing, tool decisions, and lightweight coding on 6GB-8GB GPUs

8GB: Runs locally12GB: Runs locally24GB: Runs locally48GB: Runs locally

Ollama: qwen3:4b-thinking-2507-q4_K_M Open calculator ->

Gemma 3 4B

4B Q4 about 3.5 GB Google AgentsVisionChat

Small multimodal local assistant and low-resource setups

8GB: Runs locally12GB: Runs locally24GB: Runs locally48GB: Runs locally

Ollama: gemma3:4b Open calculator ->

Qwen2.5 Coder 7B

7B Q4 about 5.5 GB Alibaba CodingAgentsChat

Small local coding assistant and agent tool generation

8GB: Runs locally12GB: Runs locally24GB: Runs locally48GB: Runs locally

Ollama: qwen2.5-coder:7b Open calculator ->

Mistral 7B

7B Q4 about 5.5 GB Mistral AI AgentsChat

Fast local chat and simple agent tasks

8GB: Runs locally12GB: Runs locally24GB: Runs locally48GB: Runs locally

Ollama: mistral:7b Open calculator ->

Llama 3.1 8B Instruct

8B Q4 about 6 GB Meta AgentsChat

Fast local chat, lightweight agents, low-cost local testing

8GB: Runs locally12GB: Runs locally24GB: Runs locally48GB: Runs locally

Ollama: llama3.1:8b Open calculator ->

Qwen3 8B

8B Q4 about 6 GB Alibaba CodingAgentsReasoning

Fast general local assistant with reasoning/coding balance

8GB: Runs locally12GB: Runs locally24GB: Runs locally48GB: Runs locally

Ollama: qwen3:8b Open calculator ->

DeepSeek-R1-0528-Qwen3-8B

8B Q4 about 6 GB DeepSeek CodingReasoningChat

Updated local reasoning experiments, coding logic checks, and step-by-step technical analysis

8GB: Runs locally12GB: Runs locally24GB: Runs locally48GB: Runs locally

Ollama: deepseek-r1:8b Open calculator ->

Qwen3-VL 8B Instruct

8B Q4 about 6.5 GB Alibaba AgentsReasoningVision

Local image understanding, OCR-style document triage, screenshots, and lightweight multimodal agent routing

8GB: Runs locally12GB: Runs locally24GB: Runs locally48GB: Runs locally

Ollama: qwen3-vl:8b Open calculator ->

Qwen3.5 9B

9B Q4 about 6.6 GB Alibaba CodingAgentsReasoning

Modern multimodal local assistant, agent experiments, and coding support on mainstream GPUs

8GB: RAM offload12GB: Runs locally24GB: Runs locally48GB: Runs locally

Ollama: qwen3.5:9b Open calculator ->

Workstation-friendly models

Good fit for 12GB to 24GB GPUs

7 models

Gemma 3 12B

12B Q4 about 9 GB Google AgentsReasoningVision

Balanced multimodal local chat on 12GB+ GPUs

8GB: RAM offload12GB: Runs locally24GB: Runs locally48GB: Runs locally

Ollama: gemma3:12b Open calculator ->

Gemma 4 E4B

4B Q4 about 9.6 GB Google CodingAgentsReasoning

Efficient multimodal local assistant and edge-style agent workflows

8GB: RAM offload12GB: Runs locally24GB: Runs locally48GB: Runs locally

Ollama: gemma4:e4b Open calculator ->

Qwen2.5 Coder 14B

14B Q4 about 10.5 GB Alibaba CodingAgentsReasoning

Local coding, scripts, repo assistance, technical agents

8GB: RAM offload12GB: Runs locally24GB: Runs locally48GB: Runs locally

Ollama: qwen2.5-coder:14b Open calculator ->

DeepSeek R1 Distill Qwen 14B

14B Q4 about 10.5 GB DeepSeek CodingReasoningChat

Local reasoning and debugging on 12GB/16GB GPUs

8GB: RAM offload12GB: Runs locally24GB: Runs locally48GB: Runs locally

Ollama: deepseek-r1:14b Open calculator ->

Phi-4 14B

14B Q4 about 10.5 GB Microsoft CodingAgentsReasoning

Compact reasoning and technical assistant on 12GB/16GB GPUs

8GB: RAM offload12GB: Runs locally24GB: Runs locally48GB: Runs locally

Ollama: phi4:14b Open calculator ->

gpt-oss 20B

20B Q4 about 14 GB OpenAI CodingAgentsReasoning

Local reasoning, agent planning, and tool-use workflows on 16GB+ GPUs

8GB: RAM offload12GB: RAM offload24GB: Runs locally48GB: Runs locally

Ollama: gpt-oss:20b Open calculator ->

Devstral Small 2 24B

24B Q4 about 15 GB Mistral AI CodingAgentsReasoning

Software engineering agents, repo navigation, patch planning, and local coding workflows

8GB: RAM offload12GB: RAM offload24GB: Runs locally48GB: Runs locally

Ollama: devstral-small-2 Open calculator ->

24GB workstation models

Best for RTX 3090/4090-class local setups

11 models

Qwen3.5 27B

27B Q4 about 17 GB Alibaba CodingAgentsReasoning

24GB-class multimodal agent, coding assistant, and reasoning workloads

8GB: RAM offload12GB: RAM offload24GB: Runs locally48GB: Runs locally

Ollama: qwen3.5:27b Open calculator ->

Qwen3.6 27B

27B Q4 about 17 GB Alibaba CodingAgentsReasoning

Newest 27B-class local multimodal coding, agent, and reasoning workloads on 24GB-class GPUs

8GB: RAM offload12GB: RAM offload24GB: Runs locally48GB: Runs locally

Ollama: qwen3.6:27b Open calculator ->

Gemma 3 27B

27B Q4 about 18 GB Google AgentsReasoningVision

High-quality multimodal local assistant on 24GB GPUs

8GB: RAM offload12GB: RAM offload24GB: Runs locally48GB: Runs locally

Ollama: gemma3:27b Open calculator ->

Qwen3 30B-A3B Instruct 2507

30.5B Q4 about 19 GB Alibaba CodingAgentsReasoning

General local reasoning, tool agents, multilingual writing, and coding on 24GB+ GPUs

8GB: RAM offload12GB: RAM offload24GB: Runs locally48GB: Runs locally

Ollama: qwen3:30b-a3b Open calculator ->

Qwen3-Coder 30B-A3B

30B Q4 about 19 GB Alibaba CodingAgentsReasoning

Agentic coding, repository-scale local code review, and tool-heavy development loops

8GB: RAM offload12GB: RAM offload24GB: Runs locally48GB: Runs locally

Ollama: qwen3-coder:30b Open calculator ->

GLM-4.7-Flash

30B Q4 about 19 GB Z.ai CodingAgentsReasoning

Local coding agents, terminal workflows, tool-heavy engineering tasks, and 30B-class reasoning on 24GB+ GPUs

8GB: RAM offload12GB: RAM offload24GB: Runs locally48GB: Runs locally

Ollama: glm-4.7-flash:q4_K_M Open calculator ->

Gemma 4 31B

31B Q4 about 20 GB Google CodingAgentsReasoning

High-quality multimodal reasoning, coding assistants, and local-first agent workflows

8GB: RAM offload12GB: RAM offload24GB: Runs locally48GB: Runs locally

Ollama: gemma4:31b Open calculator ->

Qwen3-VL 30B-A3B Instruct

30B Q4 about 20 GB Alibaba AgentsReasoningVision

Higher-quality local multimodal reasoning, screenshot analysis, document/image extraction, and GUI-agent planning

8GB: RAM offload12GB: RAM offload24GB: Runs locally48GB: Runs locally

Ollama: qwen3-vl:30b Open calculator ->

Qwen2.5 Coder 32B

32B Q4 about 21 GB Alibaba CodingAgentsReasoning

Strong local coding and architecture work on 24GB GPUs

8GB: RAM offload12GB: RAM offload24GB: Runs locally48GB: Runs locally

Ollama: qwen2.5-coder:32b Open calculator ->

DeepSeek R1 Distill Qwen 32B

32B Q4 about 21 GB DeepSeek CodingReasoningChat

Heavy local reasoning on 24GB GPUs

8GB: RAM offload12GB: RAM offload24GB: Runs locally48GB: Runs locally

Ollama: deepseek-r1:32b Open calculator ->

Qwen3.6 35B-A3B

35B Q4 about 24 GB Alibaba CodingAgentsReasoning

Agentic coding and multimodal reasoning when 27B is not enough and 32GB-class headroom is available

8GB: RAM offload12GB: RAM offload24GB: RAM offload48GB: Runs locally

Ollama: qwen3.6:35b-a3b Open calculator ->

Large or fallback-first models

Usually needs 48GB+, offload, cloud GPU, or hosted API

7 models

Mixtral 8x7B

46.7B Q4 about 28 GB Mistral AI CodingAgentsReasoning

MoE local reasoning/chat when enough VRAM is available

8GB: RAM offload12GB: RAM offload24GB: RAM offload48GB: Runs locally

Ollama: mixtral:8x7b Open calculator ->

Llama 3.1 70B Instruct

70B Q4 about 44 GB Meta CodingAgentsReasoning

High-quality local chat and reasoning on workstation-class hardware

8GB: Too large12GB: Too large24GB: RAM offload48GB: Runs locally

Ollama: llama3.1:70b Open calculator ->

Qwen3-Next 80B-A3B Instruct

80B Q4 about 50 GB Alibaba CodingAgentsReasoning

High-end local reasoning, long-context planning, and tool-agent workloads when 48GB+ memory is available

8GB: Too large12GB: Too large24GB: RAM offload48GB: RAM offload

Ollama: qwen3-next:80b-a3b-instruct-q4_K_M Open calculator ->

Qwen3-Coder-Next

80B Q4 about 52 GB Alibaba CodingAgentsChat

High-end local coding agents, repository-scale code edits, and tool-calling development workflows

8GB: Too large12GB: Too large24GB: RAM offload48GB: RAM offload

Ollama: qwen3-coder-next:q4_K_M Open calculator ->

gpt-oss 120B

120B Q4 about 65 GB OpenAI CodingAgentsReasoning

Large local reasoning servers, heavy agent orchestration, and high-end homelab inference

8GB: Too large12GB: Too large24GB: RAM offload48GB: RAM offload

Ollama: gpt-oss:120b Open calculator ->

Devstral 2 123B

123B Q4 about 75 GB Mistral AI CodingAgentsReasoning

High-end local software engineering agents, large-repository navigation, and tool-heavy coding workflows on server-class memory

8GB: Too large12GB: Too large24GB: RAM offload48GB: RAM offload

Ollama: devstral-2:123b Open calculator ->

GLM-5.2

744B Q4 about 466 GB Z.ai CodingAgentsReasoning

Long-horizon coding, large-repository context, frontend generation, and local sovereignty experiments on very large-memory systems

8GB: Too large12GB: Too large24GB: Too large48GB: Too large

Ollama: hf.co/unsloth/GLM-5.2-GGUF:UD-Q4_K_M Open calculator ->