123 recursos curados — papers, datasets, tooling y modelos
Lo esencial para construir con IA seria, libre de barreras: los papers que tienes que conocer, los datasets en español/portugués que importan en LATAM, el stack open source que de verdad se usa hoy, y los modelos open con licencia comercial-friendly. Cada item con su fuente oficial.
Modelos IA descargables · Corre LLMs gratis local
60+ modelos para Ollama, LM Studio, llama.cpp y MLX — con comando exacto, RAM necesaria y licencia. Llama · Mistral · Qwen · Phi · Gemma · DeepSeek y más.
- Paper2017 · EN
Attention Is All You Need
Vaswani et al.El paper del Transformer — base de todos los LLMs modernos.
TransformerFoundationalVer ↗ - Paper2018 · EN
BERT: Pre-training of Deep Bidirectional Transformers
Devlin et al. (Google)Encoder bidireccional que cambió el NLP.
EncoderFoundationalVer ↗ - Paper2020 · EN
GPT-3 — Language Models are Few-Shot Learners
Brown et al. (OpenAI)Escalar funciona: 175B parámetros y few-shot in-context.
LLMFoundationalVer ↗ - Paper2020 · EN
Scaling Laws for Neural Language Models
Kaplan et al. (OpenAI)Las leyes empíricas que predicen rendimiento por compute.
ScalingVer ↗ - Paper2022 · EN
Training Compute-Optimal LLMs (Chinchilla)
Hoffmann et al. (DeepMind)La corrección a Kaplan: más datos, menos parámetros.
ScalingVer ↗ - Paper2022 · EN
Chain-of-Thought Prompting Elicits Reasoning
Wei et al. (Google)Pedir «razona paso a paso» mejora drásticamente el rendimiento.
PromptingReasoningVer ↗ - Paper2022 · EN
InstructGPT — Training LMs to Follow Instructions with RLHF
Ouyang et al. (OpenAI)RLHF popularizado: cómo alinear LLMs a instrucciones.
RLHFAlignmentVer ↗ - Paper2021 · EN
LoRA: Low-Rank Adaptation of LLMs
Hu et al. (Microsoft)Fine-tuning eficiente con adaptadores de bajo rango.
Fine-tuningEfficientVer ↗ - Paper2020 · EN
Retrieval-Augmented Generation for NLP
Lewis et al. (Meta)El paper original de RAG — referencia obligada.
RAGVer ↗ - Paper2017 · EN
Deep RL from Human Preferences
Christiano et al. (OpenAI/DeepMind)El origen del feedback humano para alineamiento.
RLHFFoundationalVer ↗ - Paper2022 · EN
ReAct: Synergizing Reasoning and Acting in LMs
Yao et al. (Princeton/Google)Razonar + actuar: el patrón base de los agentes.
AgentsVer ↗ - Paper2022 · EN
Constitutional AI: Harmlessness from AI Feedback
Bai et al. (Anthropic)Alineamiento basado en principios escritos — método CAI.
AlignmentSafetyVer ↗ - Paper2023 · EN
Tree of Thoughts: Deliberate Problem Solving
Yao et al.Búsqueda en árbol sobre cadenas de pensamiento.
ReasoningVer ↗ - Paper2023 · EN
DPO: Direct Preference Optimization
Rafailov et al. (Stanford)Alternativa simple y estable a RLHF/PPO.
AlignmentVer ↗ - Paper2023 · EN
LLaMA: Open and Efficient Foundation LMs
Touvron et al. (Meta)El paper que destapó el ecosistema open.
OpenFoundationalVer ↗ - Paper2023 · EN
Llama 2: Open Foundation and Fine-Tuned Chat
Touvron et al. (Meta)Llama 2 con licencia comercial-friendly.
OpenVer ↗ - Paper2024 · EN
The Llama 3 Herd of Models
Meta AIReporte técnico de la familia Llama 3 (8B / 70B / 405B).
OpenVer ↗ - Paper2023 · EN
Mistral 7B
Jiang et al. (Mistral AI)Modelo pequeño que superó benchmarks de su tamaño.
OpenVer ↗ - Paper2024 · EN
Mixtral of Experts
Mistral AISparse Mixture-of-Experts open de alto rendimiento.
OpenMoEVer ↗ - Paper2023 · EN
Sparks of Artificial General Intelligence (GPT-4)
Bubeck et al. (Microsoft)Evaluación temprana extensa de GPT-4.
EvalLLMVer ↗ - Paper2022 · EN
FlashAttention: Fast & Memory-Efficient Exact Attention
Dao et al. (Stanford)La pieza clave de las implementaciones modernas de attention.
EfficiencyVer ↗ - Paper2023 · EN
Toolformer: LMs Can Teach Themselves to Use Tools
Schick et al. (Meta)Auto-supervisión para llamadas a tools — pre-agentes.
AgentsToolsVer ↗ - Paper2023 · EN
Voyager: Open-Ended Embodied Agent with LLMs
Wang et al. (NVIDIA)Agente que aprende continuamente jugando Minecraft.
AgentsVer ↗ - Paper2023 · EN
Reflexion: Verbal Reinforcement Learning
Shinn et al.Agentes que mejoran reflexionando sobre sus errores.
AgentsReasoningVer ↗ - Paper2023 · EN
Self-Refine: Iterative Refinement with Self-Feedback
Madaan et al.LLMs que critican y mejoran su propia salida.
ReasoningVer ↗ - Paper2023 · EN
DSPy: Compiling Declarative LM Calls into Self-Improving Pipelines
Khattab et al. (Stanford)Framework declarativo para pipelines de LLM que se auto-optimizan.
FrameworkVer ↗ - Paper2024 · EN
Gemini 1.5 Technical Report
Google DeepMindContexto de 1M tokens y arquitectura MoE.
LLMVer ↗ - Paper2024 · EN
Phi-3 Technical Report
MicrosoftModelos pequeños altamente capaces — «textbooks are all you need».
OpenSmallVer ↗ - Paper2025 · EN
DeepSeek-R1: Reasoning via RL
DeepSeek AIRazonamiento profundo entrenado con RL puro.
ReasoningOpenVer ↗ - Paper2024 · EN
Qwen2 Technical Report
AlibabaFamilia de modelos Qwen — fuerte en chino e inglés.
OpenVer ↗ - Paper2022 · ES
BERTIN: Efficient Pre-training of a Spanish LM
BSC / BERTIN ProjectModelo BERT en español entrenado con perplejidad-filtrada.
LATAMEspañolVer ↗ - Paper2022 · ES
Sparks of Spanish AI — MarIA Project
PlanTL / BSCFamilia de modelos en español del Barcelona Supercomputing Center.
LATAMEspañolVer ↗ - Dataset— · Multi
OSCAR
Inria / OSCAR ProjectCorpus masivo multilingüe extraído de Common Crawl — incluye ES y PT.
CorpusMultiVer ↗CC0/CC-BY - Dataset— · Multi
mC4
GoogleMultilingual C4 — Common Crawl limpio en 101 lenguajes.
CorpusVer ↗ODC-BY - Dataset— · Multi
CulturaX
University of OregonCorpus multilingüe de 6.3T tokens cuidadosamente curado.
CorpusVer ↗ODC-BY - Dataset— · Multi
CC-100
Conneau et al. (Meta)Common Crawl monolingüe en 100 lenguajes — base de XLM-R.
CorpusVer ↗ - Dataset— · Multi
Common Voice
MozillaVoz crowdsourced en 100+ idiomas — fundacional para ASR.
ASRVozVer ↗CC0 - Dataset— · Multi
VoxPopuli
Meta AISpeech multilingüe del Parlamento Europeo — incluye ES y PT.
ASRVer ↗ - Dataset— · Multi
OpenSubtitles
OPUSDiálogos de películas alineados en decenas de idiomas.
DiálogoTranslationVer ↗ - Dataset— · ES
SQAC — Spanish QA Corpus
BSC / PlanTLQA extractivo en español al estilo SQuAD.
QAEspañolVer ↗CC-BY-SA - Dataset— · Multi
MLQA
Meta AIQA multilingüe alineado en 7 lenguajes incluyendo ES.
QAVer ↗ - Dataset— · Multi
XNLI
Conneau et al.Inferencia en lenguaje natural en 15 idiomas incluyendo ES.
NLIVer ↗ - Dataset— · Multi
PAWS-X
GoogleIdentificación de paráfrasis cross-lingual.
NLUVer ↗ - Dataset— · Multi
WikiAnn (PAN-X)
Rahimi et al.NER multilingüe basado en Wikipedia.
NERVer ↗ - Dataset— · ES
CoNLL-2002 Spanish NER
CoNLLEl benchmark clásico de NER en español.
NEREspañolVer ↗ - Dataset— · Multi
MASSIVE
AmazonNLU intents + slots en 51 idiomas (Alexa).
NLUVer ↗CC-BY-4.0 - Dataset— · ES
Spanish Billion Words Corpus
Cristian CardellinoMil millones de palabras en español para embeddings.
CorpusEspañolVer ↗ - Dataset— · ES
TASS Corpora (SEPLN)
SEPLNAnálisis de sentimiento en español — referencia académica LATAM/España.
SentimentEspañolVer ↗ - Dataset— · Multi
AmericasNLP Shared Tasks
AmericasNLPDatasets para lenguas indígenas de las Américas (Quechua, Aymara, etc).
IndígenasLATAMVer ↗ - Dataset— · Multi
IberLEF
SEPLN / IberoamericanaShared tasks iberoamericanas — datasets ES y PT cada año.
IberoamericanaVer ↗ - Dataset— · Multi
Latxa Corpus
HiTZ / EHUCorpus y modelos en euskera — alto estándar académico.
EuskeraVer ↗ - Dataset— · Multi
AfriBERTa & Friends (analogía LATAM)
Comunidad NLPInspira el patrón para corpora regionales — referencia metodológica.
ReferenciaVer ↗ - Dataset— · Multi
Hugging Face Datasets Hub
Hugging FaceMeta-recurso: el hub donde encuentras todos los anteriores y más.
MetaVer ↗ - Tooling—
LangChain
LangChain Inc.Framework Python/TS para aplicaciones LLM — el estándar de facto.
FrameworkVer ↗MIT - Tooling—
LangGraph
LangChain Inc.Grafos de estado para construir agentes con control fino.
AgentsVer ↗MIT - Tooling—
LlamaIndex
LlamaIndexData framework para RAG y conexiones de datos a LLMs.
RAGVer ↗MIT - Tooling—
Hugging Face Transformers
Hugging FaceLa librería universal para cargar y usar modelos abiertos.
ModelsVer ↗Apache-2.0 - Tooling—
vLLM
UC BerkeleyInferencia de LLM ultra-rápida con PagedAttention.
InferenceVer ↗Apache-2.0 - Tooling—
Ollama
OllamaCorre LLMs locales con un comando — la forma más fácil.
LocalVer ↗MIT - Tooling—
LM Studio
LM StudioUI desktop para descargar y correr modelos open locales.
LocalUIVer ↗ - Tooling—
llama.cpp
Georgi GerganovInferencia C/C++ ultra-portable de Llama y otros modelos.
InferenceLocalVer ↗MIT - Tooling—
Text Generation Inference (TGI)
Hugging FaceServidor de inferencia de LLMs en producción.
InferenceVer ↗Apache-2.0 - Tooling—
DSPy
Stanford NLPProgramación declarativa de pipelines de LLM, con auto-optimización.
FrameworkVer ↗MIT - Tooling—
AutoGen
MicrosoftFramework multi-agente con conversaciones entre agentes.
AgentsVer ↗MIT - Tooling—
CrewAI
CrewAIOrquestación de equipos de agentes especializados.
AgentsVer ↗MIT - Tooling—
Pydantic AI
PydanticAgentes type-safe en Python con la rigidez de Pydantic.
AgentsVer ↗MIT - Tooling—
Instructor
Jason LiuSalidas estructuradas (JSON/Pydantic) garantizadas para LLMs.
StructuredVer ↗MIT - Tooling—
Outlines
dottxtGeneración estructurada y guiada por regex/grammar.
StructuredVer ↗Apache-2.0 - Tooling—
Guidance
MicrosoftControl programático sobre la generación de LLMs.
StructuredVer ↗MIT - Tooling—
LiteLLM
BerriAICliente unificado para 100+ proveedores de LLM (formato OpenAI).
GatewayVer ↗MIT - Tooling—
OpenRouter
OpenRouterUna API para ruteo entre múltiples proveedores y modelos.
GatewayVer ↗ - Tooling—
Helicone
HeliconeObservabilidad LLM: logs, monitoreo de costos, evaluaciones.
ObservabilityVer ↗Apache-2.0 - Tooling—
Langfuse
LangfuseObservabilidad y eval abiertos para LLM apps.
ObservabilityVer ↗MIT - Tooling—
Ragas
Exploding GradientsEvaluación de sistemas RAG con métricas automatizadas.
EvalRAGVer ↗Apache-2.0 - Tooling—
MLflow
DatabricksCiclo de vida ML: tracking, modelos, despliegue.
MLOpsVer ↗Apache-2.0 - Tooling—
Weights & Biases
W&BTracking de experimentos y evaluaciones — gratis para uso personal.
MLOpsVer ↗ - Tooling—
Chroma
ChromaVector database open source, embebible, sencilla.
VectorDBVer ↗Apache-2.0 - Tooling—
Qdrant
QdrantVector database en Rust — rápida y robusta.
VectorDBVer ↗Apache-2.0 - Tooling—
Weaviate
WeaviateVector database con módulos generativos y multi-modal.
VectorDBVer ↗BSD-3 - Tooling—
Milvus
ZillizVector database open source escalable a billones de vectores.
VectorDBVer ↗Apache-2.0 - Tooling—
pgvector
Andrew KaneBúsqueda vectorial dentro de PostgreSQL.
VectorDBSQLVer ↗PostgreSQL - Tooling—
Sentence Transformers
UKPLabEmbeddings semánticos de oraciones — referencia open.
EmbeddingsVer ↗Apache-2.0 - Tooling—
OpenAI Whisper
OpenAIASR open source multilingüe — funciona bien en ES.
ASRVer ↗MIT - Tooling—
Faster Whisper
SYSTRANWhisper acelerado (CTranslate2) — 4× más rápido.
ASRVer ↗MIT - Tooling—
Open WebUI
Open WebUI ContributorsUI tipo ChatGPT para modelos locales (Ollama y otros).
UILocalVer ↗MIT - Tooling—
AnythingLLM
Mintplex LabsApp de escritorio para RAG sobre tus documentos.
RAGLocalVer ↗MIT - Tooling—
n8n
n8nAutomatización low-code con nodos para LLMs y APIs.
AutomationVer ↗Sustainable-Use - Tooling—
Modal
Modal LabsServerless compute para correr Python/GPUs sin gestionar infra.
ComputeVer ↗ - Tooling—
Replicate
ReplicateCorre modelos open con una API — ideal para experimentar.
InferenceVer ↗ - Tooling—
Model Context Protocol (MCP)
AnthropicEstándar abierto para conectar herramientas y datos a agentes.
StandardVer ↗MIT - Tooling—
NVIDIA Triton Inference Server
NVIDIAServidor de inferencia multi-framework de producción.
InferenceVer ↗BSD-3 - Tooling—
PEFT
Hugging FaceParameter-Efficient Fine-Tuning (LoRA, QLoRA, etc).
Fine-tuningVer ↗Apache-2.0 - Tooling—
TRL — Transformer Reinforcement Learning
Hugging FaceRLHF, DPO y otros métodos de alineamiento listos para usar.
Fine-tuningVer ↗Apache-2.0 - Modelo— · Multi
Llama 3.3 70B Instruct
MetaFlagship 70B open con calidad cercana a GPT-4o.
LLMChatVer ↗Llama Community - Modelo— · Multi
Llama 3.1 8B / 70B / 405B
MetaFamilia completa, 405B fue el primer flagship open competitivo.
LLMVer ↗Llama Community - Modelo— · Multi
Mistral 7B / Small / Medium
Mistral AIModelos open de excelente relación calidad/tamaño.
LLMVer ↗Apache-2.0 - Modelo— · Multi
Mixtral 8x7B / 8x22B
Mistral AISparse MoE — fuerte rendimiento a menor compute.
LLMMoEVer ↗Apache-2.0 - Modelo— · Multi
Qwen2.5 (0.5B → 72B)
AlibabaFamilia muy capaz, fuerte en multilingüe.
LLMVer ↗Apache-2.0 - Modelo— · Multi
DeepSeek-V3
DeepSeek AIMoE open de 671B parámetros (~37B activos), competitivo con frontier.
LLMMoEVer ↗MIT - Modelo— · Multi
DeepSeek-R1
DeepSeek AIModelo de razonamiento entrenado por RL puro — open.
ReasoningVer ↗MIT - Modelo— · EN
Phi-3.5 / Phi-4
MicrosoftSmall Language Models de alta calidad y licencia MIT.
SLMVer ↗MIT - Modelo— · Multi
Gemma 2 / Gemma 3
Google DeepMindFamilia open ligada a la tecnología de Gemini.
LLMVer ↗Gemma - Modelo— · Multi
Falcon 3
TII (UAE)Modelos abiertos de TII con licencia comercial.
LLMVer ↗TII Falcon LLM - Modelo— · Multi
Yi-1.5 (6B / 9B / 34B)
01.AIModelos open competitivos especialmente en chino e inglés.
LLMVer ↗Apache-2.0 - Modelo— · EN
OLMo 2
AI2Fully-open: pesos + datos + código de entrenamiento.
Open-ReproducibleVer ↗Apache-2.0 - Modelo— · Multi
Granite 3 / 4
IBMFamilia enterprise-friendly con licencia Apache 2.0.
LLMEnterpriseVer ↗Apache-2.0 - Modelo— · EN
Nemotron 70B
NVIDIALlama afinado por NVIDIA para alta calidad de respuesta.
LLMVer ↗Llama Community - Modelo— · EN
SmolLM2
Hugging FaceFamilia ultra-pequeña (135M / 360M / 1.7B) para edge.
EdgeSLMVer ↗Apache-2.0 - Modelo— · Multi
StableLM 2 (1.6B / 12B)
Stability AIModelos open de Stability — comerciales con suscripción.
LLMVer ↗Stability AI Membership - Modelo— · EN
Hermes 3
Nous ResearchFine-tunes de Llama 3 muy populares para asistentes.
ChatVer ↗Llama Community - Modelo— · Multi
BLOOM 176B
BigScienceModelo masivo open multilingüe — el primer hito open de escala.
LLMHistoricVer ↗RAIL - Modelo— · EN
CodeLlama (7B / 13B / 34B / 70B)
MetaLlama afinado para código — múltiples tamaños.
CodeVer ↗Llama Community - Modelo— · EN
Qwen2.5-Coder
AlibabaLíder open en código a inicios de 2025.
CodeVer ↗Apache-2.0 - Modelo— · EN
DeepSeek-Coder V2
DeepSeek AICoder open muy competitivo con propietarios.
CodeVer ↗MIT - Modelo— · Multi
Whisper Large v3
OpenAIASR multilingüe state-of-the-art open.
ASRVer ↗MIT - Modelo— · EN
Stable Diffusion 3.5
Stability AIGenerador de imágenes open con licencia comercial bajo membresía.
ImageVer ↗Stability AI Community - Modelo— · EN
FLUX.1 [schnell]
Black Forest LabsGeneración de imágenes top open con licencia Apache 2.0.
ImageVer ↗Apache-2.0 - Modelo— · EN
SDXL Turbo
Stability AIGeneración de imágenes en tiempo real con SDXL.
ImageVer ↗Stability NCC - Modelo— · ES
MarIA (RoBERTa-large-bne)
BSC / PlanTLModelo grande en español — referencia académica.
EspañolVer ↗Apache-2.0 - Modelo— · ES
BERTIN
BERTIN ProjectBERT/RoBERTa en español entrenado de forma eficiente.
EspañolVer ↗CC-BY-4.0 - Modelo— · PT
Sabiá (7B / 65B)
Maritaca AILLM en portugués brasileño — open weights.
PortuguésVer ↗CC-BY-NC-SA - Modelo— · Multi
Latxa
HiTZ / EHULLM en euskera — referencia para lenguas regionales.
RegionalVer ↗Llama Community - Modelo— · ES
RigoChat (es)
Comunidad ESIniciativas de chat fine-tuneados en español.
EspañolChatVer ↗Varios
¿Conoces un recurso que falta?
Especialmente datasets LATAM o tooling open. Lo evaluamos para la próxima revisión.
Sugerir recurso