← Volver a bibliotecaModelos locales · Gratis

Corre IA gratis en tu propio computador

76 modelos open de 50 familias que puedes descargar hoy con los 7 runtimes listados abajo (Ollama, LM Studio, llama.cpp, MLX, vLLM, AirLLM, Lemonade). Cada modelo con comando exacto, RAM necesaria, licencia y link oficial. Sin API key. Sin facturas. Sin mandar tus datos a la nube.

76 modelos50 familiasChat · Code · Visión · Razonamiento · Embeddings · Multilingüe100% open weights

Paso 1 · Runtimes

Primero el runtime, después el modelo

Runtime ≠ Modelo. El runtime es el programa que sabe correr un modelo en tu hardware (Ollama, LM Studio, vLLM, llama.cpp, MLX, AirLLM, Lemonade). El modelo son los pesos que descargas (Llama, Qwen, DeepSeek, Mistral…). Elige runtime según tu máquina y tu caso de uso; después elige modelo del catálogo de abajo.

Ollama

CLI · Chat local

Sitio ↗

CLI multiplataforma — 1 comando para descargar y correr. La forma más rápida de arrancar.

OS: macOS · Linux · Windows
Ideal para: Arrancar en minutos

Instalar

curl -fsSL https://ollama.com/install.sh | sh

Ejemplo

ollama run llama3.2:3b

LM Studio

Desktop UI

Sitio ↗

App de escritorio con UI estilo ChatGPT — busca modelo, click, listo. Ideal para no-CLI.

OS: macOS · Windows · Linux
Ideal para: Usuarios no-terminal

Instalar

Descarga el instalador en lmstudio.ai

Ejemplo

Buscar "llama 3.2 3b" → Download → Chat

llama.cpp

C/C++ portable

Sitio ↗

Inferencia C++ portable — corre en cualquier hardware razonable, hasta en Raspberry Pi. La base de casi todos los demás.

OS: Todo lo que tenga compilador
Ideal para: Control total, hardware raro

Instalar

git clone https://github.com/ggerganov/llama.cpp && cd llama.cpp && make

Ejemplo

./llama-cli -m model.gguf -p "Hola"

MLX

Apple Silicon nativo

Sitio ↗

Inferencia nativa de Apple optimizada para M-series. Aprovecha memoria unificada — la más rápida en Mac.

OS: macOS Apple Silicon (M1/M2/M3/M4)
Ideal para: Devs en Mac serios

Instalar

pip install mlx-lm

Ejemplo

mlx_lm.generate --model mlx-community/Llama-3.2-3B-Instruct-4bit --prompt "Hola"

vLLM

Serving multiproceso

Sitio ↗

Motor de inferencia con PagedAttention y continuous batching. Cuando pasas de "yo solo lo uso" a "servirlo a mucha gente".

OS: Linux · macOS · WSL2 (necesita GPU NVIDIA/AMD)
Ideal para: API compartida, throughput

Instalar

pip install vllm

Ejemplo

vllm serve meta-llama/Llama-3.1-8B-Instruct --port 8000

AirLLM

"Soy un pobre"

Sitio ↗

Corre modelos gigantes (70B+, hasta 405B) con solo ~4 GB de VRAM. Layer-by-layer offloading — lento, pero funciona.

OS: Linux · macOS · Windows
Ideal para: GPU chica, modelos grandes

Instalar

pip install airllm

Ejemplo

from airllm import AutoModel
m = AutoModel.from_pretrained("meta-llama/Llama-3.1-70B")
m.generate(...)

Lemonade Server

AMD · Intel · NPUs

Sitio ↗

Servidor LLM optimizado para hardware consumer AMD/Intel/NPUs. Instalador + API OpenAI-compatible.

OS: Windows (foco Ryzen AI) · Linux
Ideal para: PCs sin NVIDIA

Instalar

Descargar el instalador en lemonade-server.ai

Ejemplo

Corre en localhost:8000 con API compatible OpenAI

Antes de elegir modelo

6 cosas que tienes que saber

Empieza por un 3B o 7B
Llama 3.2 3B o Qwen2.5 7B son las puertas de entrada. Si te corren bien, sube; si te cuesta, baja a 1B/0.5B antes de pelearte con cuantizaciones.
Q4_K_M es el sweet spot
Casi todos los modelos abajo asumen quant Q4_K_M. Pierdes ~1% calidad y ahorras ~70% RAM vs FP16. Q5 si tienes RAM de sobra; Q8 solo para evaluación seria.
RAM ≠ VRAM
En CPU corres con RAM normal (lento pero funciona). En GPU corres con VRAM (rápido). Mac Apple Silicon comparte RAM con la GPU — gran ventaja.
No descargues todo de una
Cada modelo pesa 1-40 GB. Empieza con 2-3 modelos distintos para ver cuál te sirve antes de tener 200 GB ocupados.
Licencia importa si lo vas a vender
Apache-2.0 y MIT = libre. Llama Community, Gemma, Qwen = uso comercial con condiciones. CC-BY-NC = NO comercial.
Embeddings cambian la jugada
No olvides bajar al menos un embedder (nomic-embed-text, bge-m3) — son baratos y habilitan RAG.

Paso 2 · Modelos

Todos los modelos · busca y filtra

Filtra por tamaño (Laptop / Desktop / Workstation / Server), uso, runtime soportado e idioma. Cada card trae el comando ollama run … exacto.

76 / 760

Uso

Runtime

Idioma

Llama 3.2
· 1B
Meta
ChatLaptop
El más pequeño de Meta — corre en cualquier laptop, ideal para edge.
Params
1.2B
Disco Q4
0.8 GB
RAM rec.
2 GB
OllamaCLI
```
ollama run llama3.2:1b
```
OllamaLM Studiollama.cppMLX
HF ↗
Llama Community
Llama 3.2
· 3B
Meta
ChatLaptop
Sweet spot calidad/peso para asistentes locales.
Params
3.2B
Disco Q4
2.0 GB
RAM rec.
4 GB
OllamaCLI
```
ollama run llama3.2:3b
```
OllamaLM Studiollama.cppMLX
HF ↗
Llama Community
Llama 3.1
· 8B
Meta
ChatLaptop
El workhorse 8B — referencia para chat local.
Params
8B
Disco Q4
4.7 GB
RAM rec.
8 GB
OllamaCLI
```
ollama run llama3.1:8b
```
OllamaLM Studiollama.cppMLX
HF ↗
Llama Community
Llama 3.3
· 70B
Meta
ChatWorkstation
Flagship 70B — calidad cercana a frontier propietario.
Params
70B
Disco Q4
40.0 GB
RAM rec.
48 GB
OllamaCLI
```
ollama run llama3.3:70b
```
OllamaLM Studiollama.cppMLX
HF ↗
Llama Community
Llama 3.1
· 70B
Meta
ChatWorkstation
Antecesor del 3.3, sigue siendo top open en 70B.
Params
70B
Disco Q4
40.0 GB
RAM rec.
48 GB
OllamaCLI
```
ollama run llama3.1:70b
```
OllamaLM Studiollama.cppMLX
HF ↗
Llama Community
Llama 3.2 Vision
· 11B
Meta
VisiónDesktop
Multimodal — entiende imágenes a tamaño accesible.
Params
11B
Disco Q4
7.0 GB
RAM rec.
12 GB
OllamaCLI
```
ollama run llama3.2-vision:11b
```
OllamaLM Studiollama.cpp
HF ↗
Llama Community
Llama 3.2 Vision
· 90B
Meta
VisiónWorkstation
Multimodal grande — competitivo con GPT-4o vision.
Params
90B
Disco Q4
55.0 GB
RAM rec.
64 GB
OllamaCLI
```
ollama run llama3.2-vision:90b
```
Ollamallama.cpp
HF ↗
Llama Community
Mistral
· 7B
Mistral AI
ChatLaptop
El 7B clásico — Apache 2.0 puro, libre uso comercial.
Params
7.2B
Disco Q4
4.4 GB
RAM rec.
8 GB
OllamaCLI
```
ollama run mistral:7b
```
OllamaLM Studiollama.cppMLX
HF ↗
Apache-2.0
Mistral Nemo
· 12B
Mistral AI
ChatDesktop
Junto con NVIDIA — contexto largo y fuerte multilingüe.
Params
12B
Disco Q4
7.1 GB
RAM rec.
12 GB
OllamaCLI
```
ollama run mistral-nemo:12b
```
OllamaLM Studiollama.cppMLX
HF ↗
Apache-2.0
Mistral Small 3
· 24B
Mistral AI
ChatDesktop
Competitivo con 70B en una fracción del compute — Apache.
Params
24B
Disco Q4
14.0 GB
RAM rec.
28 GB
OllamaCLI
```
ollama run mistral-small:24b
```
OllamaLM Studiollama.cppMLX
HF ↗
Apache-2.0
Mixtral
· 8x7B
Mistral AI
ChatDesktop
Sparse MoE — solo ~13B activos por token, fuerte calidad.
Params
47B
Disco Q4
26.0 GB
RAM rec.
32 GB
OllamaCLI
```
ollama run mixtral:8x7b
```
OllamaLM Studiollama.cpp
HF ↗
Apache-2.0
Mixtral
· 8x22B
Mistral AI
ChatWorkstation
MoE grande — solo ~39B activos, calidad muy alta.
Params
141B
Disco Q4
80.0 GB
RAM rec.
96 GB
OllamaCLI
```
ollama run mixtral:8x22b
```
OllamaLM Studiollama.cpp
HF ↗
Apache-2.0
Mistral Large
· 123B
Mistral AI
ChatWorkstation
Top Mistral — licencia research (no comercial sin acuerdo).
Params
123B
Disco Q4
73.0 GB
RAM rec.
96 GB
OllamaCLI
```
ollama run mistral-large:123b
```
OllamaLM Studiollama.cpp
HF ↗
Mistral Research
Qwen2.5
· 0.5B
Alibaba
ChatLaptop
Ultra-pequeño para edge y embebidos.
Params
0.5B
Disco Q4
0.4 GB
RAM rec.
1 GB
OllamaCLI
```
ollama run qwen2.5:0.5b
```
OllamaLM Studiollama.cppMLX
HF ↗
Apache-2.0
Qwen2.5
· 1.5B
Alibaba
ChatLaptop
Pequeño pero capaz — fuerte en chino y EN.
Params
1.5B
Disco Q4
1.0 GB
RAM rec.
2 GB
OllamaCLI
```
ollama run qwen2.5:1.5b
```
OllamaLM Studiollama.cppMLX
HF ↗
Apache-2.0
Qwen2.5
· 3B
Alibaba
ChatLaptop
Balance excelente para laptop con calidad sólida.
Params
3B
Disco Q4
2.0 GB
RAM rec.
4 GB
OllamaCLI
```
ollama run qwen2.5:3b
```
OllamaLM Studiollama.cppMLX
HF ↗
Apache-2.0
Qwen2.5
· 7B
Alibaba
ChatLaptop
Estándar Apache 7B — competitivo con Llama 8B.
Params
7B
Disco Q4
4.4 GB
RAM rec.
8 GB
OllamaCLI
```
ollama run qwen2.5:7b
```
OllamaLM Studiollama.cppMLX
HF ↗
Apache-2.0
Qwen2.5
· 14B
Alibaba
ChatDesktop
14B Apache — alternativa fuerte a Phi-4.
Params
14B
Disco Q4
8.5 GB
RAM rec.
16 GB
OllamaCLI
```
ollama run qwen2.5:14b
```
OllamaLM Studiollama.cppMLX
HF ↗
Apache-2.0
Qwen2.5
· 32B
Alibaba
ChatDesktop
Top Apache 32B — corre en desktop alto-end.
Params
32B
Disco Q4
19.0 GB
RAM rec.
32 GB
OllamaCLI
```
ollama run qwen2.5:32b
```
OllamaLM Studiollama.cppMLX
HF ↗
Apache-2.0
Qwen2.5
· 72B
Alibaba
ChatWorkstation
Flagship Qwen2.5 — licencia Qwen para uso comercial.
Params
72B
Disco Q4
41.0 GB
RAM rec.
48 GB
OllamaCLI
```
ollama run qwen2.5:72b
```
OllamaLM Studiollama.cpp
HF ↗
Qwen
Qwen2.5-Coder
· 1.5B
Alibaba
CodeLaptop
Code assistant ultra-portable — para autocompletar en laptop.
Params
1.5B
Disco Q4
1.0 GB
RAM rec.
2 GB
OllamaCLI
```
ollama run qwen2.5-coder:1.5b
```
OllamaLM Studiollama.cppMLX
HF ↗
Apache-2.0
Qwen2.5-Coder
· 7B
Alibaba
CodeLaptop
Líder open en código — gran relación calidad/peso.
Params
7B
Disco Q4
4.4 GB
RAM rec.
8 GB
OllamaCLI
```
ollama run qwen2.5-coder:7b
```
OllamaLM Studiollama.cppMLX
HF ↗
Apache-2.0
Qwen2.5-Coder
· 32B
Alibaba
CodeDesktop
El mejor coder open a inicios 2025 — comparable a Sonnet.
Params
32B
Disco Q4
19.0 GB
RAM rec.
32 GB
OllamaCLI
```
ollama run qwen2.5-coder:32b
```
OllamaLM Studiollama.cppMLX
HF ↗
Apache-2.0
QwQ
· 32B
Alibaba
RazonamientoDesktop
Modelo de razonamiento estilo o1 — Apache 2.0.
Params
32B
Disco Q4
19.0 GB
RAM rec.
32 GB
OllamaCLI
```
ollama run qwq:32b
```
OllamaLM Studiollama.cppMLX
HF ↗
Apache-2.0
Phi-3
· mini 3.8B
Microsoft
ChatLaptop
Pequeño y muy capaz — licencia MIT pura.
Params
3.8B
Disco Q4
2.3 GB
RAM rec.
4 GB
OllamaCLI
```
ollama run phi3:mini
```
OllamaLM Studiollama.cppMLX
HF ↗
MIT
Phi-3.5
· mini 3.8B
Microsoft
ChatLaptop
Iteración de Phi-3 mini con contexto extendido.
Params
3.8B
Disco Q4
2.3 GB
RAM rec.
4 GB
OllamaCLI
```
ollama run phi3.5:3.8b
```
OllamaLM Studiollama.cppMLX
HF ↗
MIT
Phi-3
· medium 14B
Microsoft
ChatDesktop
Phi medio — calidad alta en 14B.
Params
14B
Disco Q4
8.0 GB
RAM rec.
16 GB
OllamaCLI
```
ollama run phi3:medium
```
OllamaLM Studiollama.cppMLX
HF ↗
MIT
Phi-4
· 14B
Microsoft
RazonamientoDesktop
Reasoning-tuned MIT — sorprendente para su tamaño.
Params
14B
Disco Q4
8.5 GB
RAM rec.
16 GB
OllamaCLI
```
ollama run phi4:14b
```
OllamaLM Studiollama.cppMLX
HF ↗
MIT
Gemma 2
· 2B
Google
ChatLaptop
Gemma 2 pequeño — buena calidad para laptop.
Params
2.6B
Disco Q4
1.6 GB
RAM rec.
3 GB
OllamaCLI
```
ollama run gemma2:2b
```
OllamaLM Studiollama.cppMLX
HF ↗
Gemma
Gemma 2
· 9B
Google
ChatDesktop
9B Google — fuerte en benchmarks de su tamaño.
Params
9B
Disco Q4
5.5 GB
RAM rec.
10 GB
OllamaCLI
```
ollama run gemma2:9b
```
OllamaLM Studiollama.cppMLX
HF ↗
Gemma
Gemma 2
· 27B
Google
ChatDesktop
Top Gemma 2 — corre en desktop con buena GPU.
Params
27B
Disco Q4
16.0 GB
RAM rec.
32 GB
OllamaCLI
```
ollama run gemma2:27b
```
OllamaLM Studiollama.cppMLX
HF ↗
Gemma
Gemma 3
· 4B
Google
VisiónLaptop
Gemma 3 multimodal pequeño — entiende imágenes.
Params
4B
Disco Q4
2.4 GB
RAM rec.
5 GB
OllamaCLI
```
ollama run gemma3:4b
```
OllamaLM Studiollama.cppMLX
HF ↗
Gemma
Gemma 3
· 27B
Google
VisiónDesktop
Gemma 3 grande multimodal — calidad muy alta.
Params
27B
Disco Q4
16.0 GB
RAM rec.
32 GB
OllamaCLI
```
ollama run gemma3:27b
```
OllamaLM Studiollama.cppMLX
HF ↗
Gemma
DeepSeek-R1
· 1.5B (distill)
DeepSeek AI
RazonamientoLaptop
Razonamiento destilado MIT — corre en cualquier laptop.
Params
1.5B
Disco Q4
1.0 GB
RAM rec.
2 GB
OllamaCLI
```
ollama run deepseek-r1:1.5b
```
OllamaLM Studiollama.cppMLX
HF ↗
MIT
DeepSeek-R1
· 7B (distill)
DeepSeek AI
RazonamientoLaptop
Razonamiento 7B destilado — gran upgrade desde modelos base.
Params
7B
Disco Q4
4.4 GB
RAM rec.
8 GB
OllamaCLI
```
ollama run deepseek-r1:7b
```
OllamaLM Studiollama.cppMLX
HF ↗
MIT
DeepSeek-R1
· 14B (distill)
DeepSeek AI
RazonamientoDesktop
El sweet spot del razonamiento open — corre en desktop.
Params
14B
Disco Q4
8.5 GB
RAM rec.
16 GB
OllamaCLI
```
ollama run deepseek-r1:14b
```
OllamaLM Studiollama.cppMLX
HF ↗
MIT
DeepSeek-R1
· 32B (distill)
DeepSeek AI
RazonamientoDesktop
Razonamiento 32B — calidad muy alta, MIT.
Params
32B
Disco Q4
19.0 GB
RAM rec.
32 GB
OllamaCLI
```
ollama run deepseek-r1:32b
```
OllamaLM Studiollama.cppMLX
HF ↗
MIT
DeepSeek-R1
· 70B (distill)
DeepSeek AI
RazonamientoWorkstation
Razonamiento de élite local — base Llama 70B + destilación.
Params
70B
Disco Q4
40.0 GB
RAM rec.
48 GB
OllamaCLI
```
ollama run deepseek-r1:70b
```
OllamaLM Studiollama.cpp
HF ↗
MIT
DeepSeek-Coder V2
· 16B
DeepSeek AI
CodeDesktop
Coder MoE — 2.4B activos por token, eficiente.
Params
16B
Disco Q4
10.0 GB
RAM rec.
16 GB
OllamaCLI
```
ollama run deepseek-coder-v2:16b
```
OllamaLM Studiollama.cppMLX
HF ↗
MIT
CodeLlama
· 7B
Meta
CodeLaptop
Code original de Meta — referencia clásica.
Params
7B
Disco Q4
4.4 GB
RAM rec.
8 GB
OllamaCLI
```
ollama run codellama:7b
```
OllamaLM Studiollama.cppMLX
HF ↗
Llama Community
CodeLlama
· 13B
Meta
CodeDesktop
CodeLlama medio — buen balance.
Params
13B
Disco Q4
7.5 GB
RAM rec.
16 GB
OllamaCLI
```
ollama run codellama:13b
```
OllamaLM Studiollama.cppMLX
HF ↗
Llama Community
CodeLlama
· 34B
Meta
CodeDesktop
CodeLlama 34B — pesado pero rinde.
Params
34B
Disco Q4
20.0 GB
RAM rec.
32 GB
OllamaCLI
```
ollama run codellama:34b
```
OllamaLM Studiollama.cpp
HF ↗
Llama Community
StarCoder2
· 3B
BigCode
CodeLaptop
Code completion compacto, multi-lenguaje.
Params
3B
Disco Q4
1.8 GB
RAM rec.
4 GB
OllamaCLI
```
ollama run starcoder2:3b
```
OllamaLM Studiollama.cppMLX
HF ↗
BigCode OpenRAIL-M
StarCoder2
· 15B
BigCode
CodeDesktop
StarCoder2 grande — 600+ lenguajes.
Params
15B
Disco Q4
9.0 GB
RAM rec.
16 GB
OllamaCLI
```
ollama run starcoder2:15b
```
OllamaLM Studiollama.cppMLX
HF ↗
BigCode OpenRAIL-M
Granite Code
· 8B
IBM
CodeLaptop
Coder de IBM con Apache 2.0 — atractivo para empresas.
Params
8B
Disco Q4
4.7 GB
RAM rec.
8 GB
OllamaCLI
```
ollama run granite-code:8b
```
OllamaLM Studiollama.cppMLX
HF ↗
Apache-2.0
Granite Code
· 34B
IBM
CodeDesktop
Top coder Apache de IBM — para uso empresarial sin fricción.
Params
34B
Disco Q4
20.0 GB
RAM rec.
32 GB
OllamaCLI
```
ollama run granite-code:34b
```
OllamaLM Studiollama.cpp
HF ↗
Apache-2.0
CodeGemma
· 7B
Google
CodeLaptop
Coder de Google basado en Gemma.
Params
7B
Disco Q4
4.4 GB
RAM rec.
8 GB
OllamaCLI
```
ollama run codegemma:7b
```
OllamaLM Studiollama.cppMLX
HF ↗
Gemma
LLaVA
· 7B
LLaVA
VisiónLaptop
El multimodal open clásico — funciona con cualquier llama.cpp.
Params
7B
Disco Q4
4.6 GB
RAM rec.
8 GB
OllamaCLI
```
ollama run llava:7b
```
OllamaLM Studiollama.cpp
HF ↗
Apache-2.0
LLaVA
· 34B
LLaVA
VisiónDesktop
LLaVA grande — sólido en tareas complejas de imagen.
Params
34B
Disco Q4
20.0 GB
RAM rec.
32 GB
OllamaCLI
```
ollama run llava:34b
```
OllamaLM Studiollama.cpp
HF ↗
Apache-2.0
LLaVA-Llama3
· 8B
XTuner
VisiónLaptop
LLaVA con base Llama 3 — alta calidad de respuestas.
Params
8B
Disco Q4
5.0 GB
RAM rec.
8 GB
OllamaCLI
```
ollama run llava-llama3:8b
```
OllamaLM Studiollama.cpp
HF ↗
Llama Community
LLaVA-Phi3
· 3.8B
XTuner
VisiónLaptop
Multimodal mini — visión en laptop modesta.
Params
3.8B
Disco Q4
2.5 GB
RAM rec.
4 GB
OllamaCLI
```
ollama run llava-phi3:3.8b
```
OllamaLM Studiollama.cpp
HF ↗
MIT
Moondream
· 1.8B
Vikhyat
VisiónLaptop
Mini-VLM — el más liviano para describir imágenes.
Params
1.8B
Disco Q4
1.7 GB
RAM rec.
4 GB
OllamaCLI
```
ollama run moondream:1.8b
```
OllamaLM Studiollama.cpp
HF ↗
Apache-2.0
MiniCPM-V
· 8B
OpenBMB
VisiónLaptop
Multimodal compacto con OCR y video — Apache.
Params
8B
Disco Q4
5.0 GB
RAM rec.
8 GB
OllamaCLI
```
ollama run minicpm-v:8b
```
OllamaLM Studiollama.cpp
HF ↗
Apache-2.0
BakLLaVA
· 7B
SkunkworksAI
VisiónLaptop
LLaVA sobre Mistral — alternativa Apache.
Params
7B
Disco Q4
4.6 GB
RAM rec.
8 GB
OllamaCLI
```
ollama run bakllava:7b
```
OllamaLM Studiollama.cpp
HF ↗
Apache-2.0
Nomic Embed
· text-v1.5
Nomic AI
EmbeddingsLaptop
Embeddings open referentes — 768d, contexto largo.
Params
0.137B
Disco Q4
0.3 GB
RAM rec.
1 GB
OllamaCLI
```
ollama run nomic-embed-text
```
Ollamallama.cpp
HF ↗
Apache-2.0
MxBai Embed
· large-v1
Mixedbread
EmbeddingsLaptop
Embeddings líder en benchmarks de su categoría.
Params
0.335B
Disco Q4
0.7 GB
RAM rec.
1 GB
OllamaCLI
```
ollama run mxbai-embed-large
```
Ollamallama.cpp
HF ↗
Apache-2.0
BGE-M3
· multilingual
BAAI
EmbeddingsLaptop
Embeddings multilingües — fuerte en español/portugués.
Params
0.567B
Disco Q4
1.1 GB
RAM rec.
2 GB
OllamaCLI
```
ollama run bge-m3
```
Ollamallama.cpp
HF ↗
MIT
Snowflake Arctic Embed
· large
Snowflake
EmbeddingsLaptop
Embeddings empresariales open de Snowflake.
Params
0.335B
Disco Q4
0.7 GB
RAM rec.
1 GB
OllamaCLI
```
ollama run snowflake-arctic-embed
```
Ollamallama.cpp
HF ↗
Apache-2.0
all-MiniLM
· L6-v2
Sentence Transformers
EmbeddingsLaptop
El embedding ultra-ligero de siempre — 384d.
Params
0.022B
Disco Q4
0.1 GB
RAM rec.
1 GB
OllamaCLI
```
ollama run all-minilm
```
Ollamallama.cpp
HF ↗
Apache-2.0
Aya Expanse
· 8B
Cohere
MultilingüeLaptop
Cohere multilingüe — 23 lenguajes incluido español.
Params
8B
Disco Q4
4.7 GB
RAM rec.
8 GB
OllamaCLI
```
ollama run aya-expanse:8b
```
OllamaLM Studiollama.cpp
HF ↗
CC-BY-NC
Aya Expanse
· 32B
Cohere
MultilingüeDesktop
Aya grande — calidad muy alta en multilingüe.
Params
32B
Disco Q4
19.0 GB
RAM rec.
32 GB
OllamaCLI
```
ollama run aya-expanse:32b
```
OllamaLM Studiollama.cpp
HF ↗
CC-BY-NC
Command-R
· 35B
Cohere
MultilingüeDesktop
Cohere para RAG y tools — fuerte en multilingüe.
Params
35B
Disco Q4
21.0 GB
RAM rec.
32 GB
OllamaCLI
```
ollama run command-r:35b
```
OllamaLM Studiollama.cpp
HF ↗
CC-BY-NC
Command-R+
· 104B
Cohere
MultilingüeWorkstation
Top Command-R+ — tool use de élite.
Params
104B
Disco Q4
60.0 GB
RAM rec.
80 GB
OllamaCLI
```
ollama run command-r-plus:104b
```
OllamaLM Studiollama.cpp
HF ↗
CC-BY-NC
Granite 3.1
· 8B
IBM
ChatLaptop
Granite chat IBM — Apache 2.0, ideal enterprise.
Params
8B
Disco Q4
4.7 GB
RAM rec.
8 GB
OllamaCLI
```
ollama run granite3.1-dense:8b
```
OllamaLM Studiollama.cppMLX
HF ↗
Apache-2.0
Granite 3 MoE
· 3B (a800m)
IBM
ChatLaptop
MoE ligero de IBM — eficiente y Apache 2.0.
Params
3B
Disco Q4
1.8 GB
RAM rec.
4 GB
OllamaCLI
```
ollama run granite3-moe:3b
```
OllamaLM Studiollama.cpp
HF ↗
Apache-2.0
SmolLM2
· 1.7B
Hugging Face
ChatLaptop
Ultra-pequeño y Apache — perfecto para edge.
Params
1.7B
Disco Q4
1.1 GB
RAM rec.
2 GB
OllamaCLI
```
ollama run smollm2:1.7b
```
OllamaLM Studiollama.cppMLX
HF ↗
Apache-2.0
OLMo 2
· 13B
AI2
ChatDesktop
Fully-open — datos, pesos, código de entrenamiento. Apache.
Params
13B
Disco Q4
7.5 GB
RAM rec.
16 GB
OllamaCLI
```
ollama run olmo2:13b
```
OllamaLM Studiollama.cppMLX
HF ↗
Apache-2.0
Falcon 3
· 10B
TII
ChatDesktop
Falcon de TII — open con uso comercial.
Params
10B
Disco Q4
6.0 GB
RAM rec.
12 GB
OllamaCLI
```
ollama run falcon3:10b
```
OllamaLM Studiollama.cppMLX
HF ↗
TII Falcon LLM
Nemotron
· 70B
NVIDIA
ChatWorkstation
Llama 3.1 70B afinado por NVIDIA — calidad líder.
Params
70B
Disco Q4
40.0 GB
RAM rec.
48 GB
OllamaCLI
```
ollama run nemotron:70b
```
OllamaLM Studiollama.cpp
HF ↗
Llama Community
Hermes 3
· 8B
Nous Research
ChatLaptop
Fine-tune popular de Llama 3 — buen asistente personal.
Params
8B
Disco Q4
4.7 GB
RAM rec.
8 GB
OllamaCLI
```
ollama run hermes3:8b
```
OllamaLM Studiollama.cppMLX
HF ↗
Llama Community
Tulu 3
· 8B
AI2
ChatLaptop
Post-trained de AI2 — receta open de alta calidad.
Params
8B
Disco Q4
4.7 GB
RAM rec.
8 GB
OllamaCLI
```
ollama run tulu3:8b
```
OllamaLM Studiollama.cppMLX
HF ↗
Llama Community
Sailor 2
· 8B
Sail
MultilingüeLaptop
Multilingüe sudeste asiático — referencia para lenguas regionales.
Params
8B
Disco Q4
4.7 GB
RAM rec.
8 GB
LM Studiollama.cpp
HF ↗
Apache-2.0
EXAONE 3.5
· 7.8B
LG AI
ChatLaptop
EXAONE de LG — fuerte en coreano e inglés.
Params
7.8B
Disco Q4
4.7 GB
RAM rec.
8 GB
OllamaCLI
```
ollama run exaone3.5:7.8b
```
OllamaLM Studiollama.cpp
HF ↗
EXAONE AI License
InternLM 2.5
· 7B
Shanghai AI Lab
ChatLaptop
InternLM 2.5 — Apache 2.0, fuerte en EN/CN.
Params
7B
Disco Q4
4.4 GB
RAM rec.
8 GB
OllamaCLI
```
ollama run internlm2:7b
```
OllamaLM Studiollama.cppMLX
HF ↗
Apache-2.0
Sabiá
· 7B
Maritaca AI
ChatLaptop
LLM en portugués brasileño — para apps en pt-BR.
Params
7B
Disco Q4
4.4 GB
RAM rec.
8 GB
LM Studiollama.cpp
HF ↗
CC-BY-NC-SA
MarIA
· large-bne
BSC / PlanTL
MultilingüeLaptop
Encoder en español del BSC — base para NLP español.
Params
0.355B
Disco Q4
1.4 GB
RAM rec.
2 GB
llama.cpp
HF ↗
Apache-2.0

¿Falta tu favorito?

Sugiere un modelo

Especialmente modelos en español, portugués o lenguas indígenas LATAM. Los evaluamos para la próxima revisión.

Sugerir modelo

Primero el runtime, después el modelo

Ollama

LM Studio

llama.cpp

MLX

vLLM

AirLLM

Lemonade Server

6 cosas que tienes que saber

Empieza por un 3B o 7B

Q4_K_M es el sweet spot

RAM ≠ VRAM

No descargues todo de una

Licencia importa si lo vas a vender

Embeddings cambian la jugada

Todos los modelos · busca y filtra

Llama 3.2

Llama 3.2

Llama 3.1

Llama 3.3

Llama 3.1

Llama 3.2 Vision

Llama 3.2 Vision

Mistral

Mistral Nemo

Mistral Small 3

Mixtral

Mixtral

Mistral Large

Qwen2.5

Qwen2.5

Qwen2.5

Qwen2.5

Qwen2.5

Qwen2.5

Qwen2.5

Qwen2.5-Coder

Qwen2.5-Coder

Qwen2.5-Coder

QwQ

Phi-3

Phi-3.5

Phi-3

Phi-4

Gemma 2

Gemma 2

Gemma 2

Gemma 3

Gemma 3

DeepSeek-R1

DeepSeek-R1

DeepSeek-R1

DeepSeek-R1

DeepSeek-R1

DeepSeek-Coder V2

CodeLlama

CodeLlama

CodeLlama

StarCoder2

StarCoder2

Granite Code

Granite Code

CodeGemma

LLaVA

LLaVA

LLaVA-Llama3

LLaVA-Phi3

Moondream

MiniCPM-V

BakLLaVA

Nomic Embed

MxBai Embed

BGE-M3

Snowflake Arctic Embed

all-MiniLM

Aya Expanse

Aya Expanse

Command-R

Command-R+

Granite 3.1