Ollama
Sitio oficial ↗CLI multiplataforma — 1 comando para descargar y correr. La forma más rápida de arrancar.
curl -fsSL https://ollama.com/install.sh | shollama run llama3.2:3b76 modelos open de 50 familias que puedes descargar hoy con Ollama, LM Studio, llama.cpp o MLX. Cada uno con su comando exacto, RAM necesaria, licencia y link directo al repo oficial. Sin API key. Sin facturas. Sin mandar tus datos a la nube.
CLI multiplataforma — 1 comando para descargar y correr. La forma más rápida de arrancar.
curl -fsSL https://ollama.com/install.sh | shollama run llama3.2:3bApp de escritorio con UI estilo ChatGPT — busca modelo, click, listo. Ideal para no-CLI.
Descarga el instalador en lmstudio.aiBuscar "llama 3.2 3b" → Download → ChatInferencia C++ portable — corre en cualquier hardware razonable, hasta en Raspberry Pi.
git clone https://github.com/ggerganov/llama.cpp && cd llama.cpp && make./llama-cli -m model.gguf -p "Hola"Inferencia nativa optimizada para Apple Silicon (M1/M2/M3/M4) — la más rápida en Mac.
pip install mlx-lmmlx_lm.generate --model mlx-community/Llama-3.2-3B-Instruct-4bit --prompt "Hola"Llama 3.2 3B o Qwen2.5 7B son las puertas de entrada. Si te corren bien, sube; si te cuesta, baja a 1B/0.5B antes de pelearte con cuantizaciones.
Casi todos los modelos abajo asumen quant Q4_K_M. Pierdes ~1% calidad y ahorras ~70% RAM vs FP16. Q5 si tienes RAM de sobra; Q8 solo para evaluación seria.
En CPU corres con RAM normal (lento pero funciona). En GPU corres con VRAM (rápido). Mac Apple Silicon comparte RAM con la GPU — gran ventaja.
Cada modelo pesa 1-40 GB. Empieza con 2-3 modelos distintos para ver cuál te sirve antes de tener 200 GB ocupados.
Apache-2.0 y MIT = libre. Llama Community, Gemma, Qwen = uso comercial con condiciones. CC-BY-NC = NO comercial.
No olvides bajar al menos un embedder (nomic-embed-text, bge-m3) — son baratos y habilitan RAG.
Filtra por tamaño (Laptop / Desktop / Workstation / Server), uso, runner soportado e idioma. Cada card trae el comando ollama run … exacto.
El más pequeño de Meta — corre en cualquier laptop, ideal para edge.
ollama run llama3.2:1bSweet spot calidad/peso para asistentes locales.
ollama run llama3.2:3bEl workhorse 8B — referencia para chat local.
ollama run llama3.1:8bFlagship 70B — calidad cercana a frontier propietario.
ollama run llama3.3:70bAntecesor del 3.3, sigue siendo top open en 70B.
ollama run llama3.1:70bMultimodal — entiende imágenes a tamaño accesible.
ollama run llama3.2-vision:11bMultimodal grande — competitivo con GPT-4o vision.
ollama run llama3.2-vision:90bEl 7B clásico — Apache 2.0 puro, libre uso comercial.
ollama run mistral:7bJunto con NVIDIA — contexto largo y fuerte multilingüe.
ollama run mistral-nemo:12bCompetitivo con 70B en una fracción del compute — Apache.
ollama run mistral-small:24bSparse MoE — solo ~13B activos por token, fuerte calidad.
ollama run mixtral:8x7bMoE grande — solo ~39B activos, calidad muy alta.
ollama run mixtral:8x22bTop Mistral — licencia research (no comercial sin acuerdo).
ollama run mistral-large:123bUltra-pequeño para edge y embebidos.
ollama run qwen2.5:0.5bPequeño pero capaz — fuerte en chino y EN.
ollama run qwen2.5:1.5bBalance excelente para laptop con calidad sólida.
ollama run qwen2.5:3bEstándar Apache 7B — competitivo con Llama 8B.
ollama run qwen2.5:7b14B Apache — alternativa fuerte a Phi-4.
ollama run qwen2.5:14bTop Apache 32B — corre en desktop alto-end.
ollama run qwen2.5:32bFlagship Qwen2.5 — licencia Qwen para uso comercial.
ollama run qwen2.5:72bCode assistant ultra-portable — para autocompletar en laptop.
ollama run qwen2.5-coder:1.5bLíder open en código — gran relación calidad/peso.
ollama run qwen2.5-coder:7bEl mejor coder open a inicios 2025 — comparable a Sonnet.
ollama run qwen2.5-coder:32bModelo de razonamiento estilo o1 — Apache 2.0.
ollama run qwq:32bPequeño y muy capaz — licencia MIT pura.
ollama run phi3:miniIteración de Phi-3 mini con contexto extendido.
ollama run phi3.5:3.8bPhi medio — calidad alta en 14B.
ollama run phi3:mediumReasoning-tuned MIT — sorprendente para su tamaño.
ollama run phi4:14bGemma 2 pequeño — buena calidad para laptop.
ollama run gemma2:2b9B Google — fuerte en benchmarks de su tamaño.
ollama run gemma2:9bTop Gemma 2 — corre en desktop con buena GPU.
ollama run gemma2:27bGemma 3 multimodal pequeño — entiende imágenes.
ollama run gemma3:4bGemma 3 grande multimodal — calidad muy alta.
ollama run gemma3:27bRazonamiento destilado MIT — corre en cualquier laptop.
ollama run deepseek-r1:1.5bRazonamiento 7B destilado — gran upgrade desde modelos base.
ollama run deepseek-r1:7bEl sweet spot del razonamiento open — corre en desktop.
ollama run deepseek-r1:14bRazonamiento 32B — calidad muy alta, MIT.
ollama run deepseek-r1:32bRazonamiento de élite local — base Llama 70B + destilación.
ollama run deepseek-r1:70bCoder MoE — 2.4B activos por token, eficiente.
ollama run deepseek-coder-v2:16bCode original de Meta — referencia clásica.
ollama run codellama:7bCodeLlama medio — buen balance.
ollama run codellama:13bCodeLlama 34B — pesado pero rinde.
ollama run codellama:34bCode completion compacto, multi-lenguaje.
ollama run starcoder2:3bStarCoder2 grande — 600+ lenguajes.
ollama run starcoder2:15bCoder de IBM con Apache 2.0 — atractivo para empresas.
ollama run granite-code:8bTop coder Apache de IBM — para uso empresarial sin fricción.
ollama run granite-code:34bCoder de Google basado en Gemma.
ollama run codegemma:7bEl multimodal open clásico — funciona con cualquier llama.cpp.
ollama run llava:7bLLaVA grande — sólido en tareas complejas de imagen.
ollama run llava:34bLLaVA con base Llama 3 — alta calidad de respuestas.
ollama run llava-llama3:8bMultimodal mini — visión en laptop modesta.
ollama run llava-phi3:3.8bMini-VLM — el más liviano para describir imágenes.
ollama run moondream:1.8bMultimodal compacto con OCR y video — Apache.
ollama run minicpm-v:8bLLaVA sobre Mistral — alternativa Apache.
ollama run bakllava:7bEmbeddings open referentes — 768d, contexto largo.
ollama run nomic-embed-textEmbeddings líder en benchmarks de su categoría.
ollama run mxbai-embed-largeEmbeddings multilingües — fuerte en español/portugués.
ollama run bge-m3Embeddings empresariales open de Snowflake.
ollama run snowflake-arctic-embedEl embedding ultra-ligero de siempre — 384d.
ollama run all-minilmCohere multilingüe — 23 lenguajes incluido español.
ollama run aya-expanse:8bAya grande — calidad muy alta en multilingüe.
ollama run aya-expanse:32bCohere para RAG y tools — fuerte en multilingüe.
ollama run command-r:35bTop Command-R+ — tool use de élite.
ollama run command-r-plus:104bGranite chat IBM — Apache 2.0, ideal enterprise.
ollama run granite3.1-dense:8bMoE ligero de IBM — eficiente y Apache 2.0.
ollama run granite3-moe:3bUltra-pequeño y Apache — perfecto para edge.
ollama run smollm2:1.7bFully-open — datos, pesos, código de entrenamiento. Apache.
ollama run olmo2:13bFalcon de TII — open con uso comercial.
ollama run falcon3:10bLlama 3.1 70B afinado por NVIDIA — calidad líder.
ollama run nemotron:70bFine-tune popular de Llama 3 — buen asistente personal.
ollama run hermes3:8bPost-trained de AI2 — receta open de alta calidad.
ollama run tulu3:8bMultilingüe sudeste asiático — referencia para lenguas regionales.
EXAONE de LG — fuerte en coreano e inglés.
ollama run exaone3.5:7.8bInternLM 2.5 — Apache 2.0, fuerte en EN/CN.
ollama run internlm2:7bLLM en portugués brasileño — para apps en pt-BR.
Encoder en español del BSC — base para NLP español.
Especialmente modelos en español, portugués o lenguas indígenas LATAM. Los evaluamos para la próxima revisión.
Sugerir modelo