Biblioteca abierta

123 recursos curados — papers, datasets, tooling y modelos

Lo esencial para construir con IA seria, libre de barreras: los papers que tienes que conocer, los datasets en español/portugués que importan en LATAM, el stack open source que de verdad se usa hoy, y los modelos open con licencia comercial-friendly. Cada item con su fuente oficial.

32 papers21 datasets40 herramientas30 modelos100% fuentes oficiales

Subpágina destacada

Modelos IA descargables · Corre LLMs gratis local

60+ modelos para Ollama, LM Studio, llama.cpp y MLX — con comando exacto, RAM necesaria y licencia. Llama · Mistral · Qwen · Phi · Gemma · DeepSeek y más.

Ver modelos locales

123 / 1230

Tipo

Idioma

Paper2017 · EN
Attention Is All You Need
Vaswani et al.
El paper del Transformer — base de todos los LLMs modernos.
TransformerFoundational
Ver ↗
Paper2018 · EN
BERT: Pre-training of Deep Bidirectional Transformers
Devlin et al. (Google)
Encoder bidireccional que cambió el NLP.
EncoderFoundational
Ver ↗
Paper2020 · EN
GPT-3 — Language Models are Few-Shot Learners
Brown et al. (OpenAI)
Escalar funciona: 175B parámetros y few-shot in-context.
LLMFoundational
Ver ↗
Paper2020 · EN
Scaling Laws for Neural Language Models
Kaplan et al. (OpenAI)
Las leyes empíricas que predicen rendimiento por compute.
Scaling
Ver ↗
Paper2022 · EN
Training Compute-Optimal LLMs (Chinchilla)
Hoffmann et al. (DeepMind)
La corrección a Kaplan: más datos, menos parámetros.
Scaling
Ver ↗
Paper2022 · EN
Chain-of-Thought Prompting Elicits Reasoning
Wei et al. (Google)
Pedir «razona paso a paso» mejora drásticamente el rendimiento.
PromptingReasoning
Ver ↗
Paper2022 · EN
InstructGPT — Training LMs to Follow Instructions with RLHF
Ouyang et al. (OpenAI)
RLHF popularizado: cómo alinear LLMs a instrucciones.
RLHFAlignment
Ver ↗
Paper2021 · EN
LoRA: Low-Rank Adaptation of LLMs
Hu et al. (Microsoft)
Fine-tuning eficiente con adaptadores de bajo rango.
Fine-tuningEfficient
Ver ↗
Paper2020 · EN
Retrieval-Augmented Generation for NLP
Lewis et al. (Meta)
El paper original de RAG — referencia obligada.
RAG
Ver ↗
Paper2017 · EN
Deep RL from Human Preferences
Christiano et al. (OpenAI/DeepMind)
El origen del feedback humano para alineamiento.
RLHFFoundational
Ver ↗
Paper2022 · EN
ReAct: Synergizing Reasoning and Acting in LMs
Yao et al. (Princeton/Google)
Razonar + actuar: el patrón base de los agentes.
Agents
Ver ↗
Paper2022 · EN
Constitutional AI: Harmlessness from AI Feedback
Bai et al. (Anthropic)
Alineamiento basado en principios escritos — método CAI.
AlignmentSafety
Ver ↗
Paper2023 · EN
Tree of Thoughts: Deliberate Problem Solving
Yao et al.
Búsqueda en árbol sobre cadenas de pensamiento.
Reasoning
Ver ↗
Paper2023 · EN
DPO: Direct Preference Optimization
Rafailov et al. (Stanford)
Alternativa simple y estable a RLHF/PPO.
Alignment
Ver ↗
Paper2023 · EN
LLaMA: Open and Efficient Foundation LMs
Touvron et al. (Meta)
El paper que destapó el ecosistema open.
OpenFoundational
Ver ↗
Paper2023 · EN
Llama 2: Open Foundation and Fine-Tuned Chat
Touvron et al. (Meta)
Llama 2 con licencia comercial-friendly.
Open
Ver ↗
Paper2024 · EN
The Llama 3 Herd of Models
Meta AI
Reporte técnico de la familia Llama 3 (8B / 70B / 405B).
Open
Ver ↗
Paper2023 · EN
Mistral 7B
Jiang et al. (Mistral AI)
Modelo pequeño que superó benchmarks de su tamaño.
Open
Ver ↗
Paper2024 · EN
Mixtral of Experts
Mistral AI
Sparse Mixture-of-Experts open de alto rendimiento.
OpenMoE
Ver ↗
Paper2023 · EN
Sparks of Artificial General Intelligence (GPT-4)
Bubeck et al. (Microsoft)
Evaluación temprana extensa de GPT-4.
EvalLLM
Ver ↗
Paper2022 · EN
FlashAttention: Fast & Memory-Efficient Exact Attention
Dao et al. (Stanford)
La pieza clave de las implementaciones modernas de attention.
Efficiency
Ver ↗
Paper2023 · EN
Toolformer: LMs Can Teach Themselves to Use Tools
Schick et al. (Meta)
Auto-supervisión para llamadas a tools — pre-agentes.
AgentsTools
Ver ↗
Paper2023 · EN
Voyager: Open-Ended Embodied Agent with LLMs
Wang et al. (NVIDIA)
Agente que aprende continuamente jugando Minecraft.
Agents
Ver ↗
Paper2023 · EN
Reflexion: Verbal Reinforcement Learning
Shinn et al.
Agentes que mejoran reflexionando sobre sus errores.
AgentsReasoning
Ver ↗
Paper2023 · EN
Self-Refine: Iterative Refinement with Self-Feedback
Madaan et al.
LLMs que critican y mejoran su propia salida.
Reasoning
Ver ↗
Paper2023 · EN
DSPy: Compiling Declarative LM Calls into Self-Improving Pipelines
Khattab et al. (Stanford)
Framework declarativo para pipelines de LLM que se auto-optimizan.
Framework
Ver ↗
Paper2024 · EN
Gemini 1.5 Technical Report
Google DeepMind
Contexto de 1M tokens y arquitectura MoE.
LLM
Ver ↗
Paper2024 · EN
Phi-3 Technical Report
Microsoft
Modelos pequeños altamente capaces — «textbooks are all you need».
OpenSmall
Ver ↗
Paper2025 · EN
DeepSeek-R1: Reasoning via RL
DeepSeek AI
Razonamiento profundo entrenado con RL puro.
ReasoningOpen
Ver ↗
Paper2024 · EN
Qwen2 Technical Report
Alibaba
Familia de modelos Qwen — fuerte en chino e inglés.
Open
Ver ↗
Paper2022 · ES
BERTIN: Efficient Pre-training of a Spanish LM
BSC / BERTIN Project
Modelo BERT en español entrenado con perplejidad-filtrada.
LATAMEspañol
Ver ↗
Paper2022 · ES
Sparks of Spanish AI — MarIA Project
PlanTL / BSC
Familia de modelos en español del Barcelona Supercomputing Center.
LATAMEspañol
Ver ↗
Dataset— · Multi
OSCAR
Inria / OSCAR Project
Corpus masivo multilingüe extraído de Common Crawl — incluye ES y PT.
CorpusMulti
Ver ↗
CC0/CC-BY
Dataset— · Multi
mC4
Google
Multilingual C4 — Common Crawl limpio en 101 lenguajes.
Corpus
Ver ↗
ODC-BY
Dataset— · Multi
CulturaX
University of Oregon
Corpus multilingüe de 6.3T tokens cuidadosamente curado.
Corpus
Ver ↗
ODC-BY
Dataset— · Multi
CC-100
Conneau et al. (Meta)
Common Crawl monolingüe en 100 lenguajes — base de XLM-R.
Corpus
Ver ↗
Dataset— · Multi
Common Voice
Mozilla
Voz crowdsourced en 100+ idiomas — fundacional para ASR.
ASRVoz
Ver ↗
CC0
Dataset— · Multi
VoxPopuli
Meta AI
Speech multilingüe del Parlamento Europeo — incluye ES y PT.
ASR
Ver ↗
Dataset— · Multi
OpenSubtitles
OPUS
Diálogos de películas alineados en decenas de idiomas.
DiálogoTranslation
Ver ↗
Dataset— · ES
SQAC — Spanish QA Corpus
BSC / PlanTL
QA extractivo en español al estilo SQuAD.
QAEspañol
Ver ↗
CC-BY-SA
Dataset— · Multi
MLQA
Meta AI
QA multilingüe alineado en 7 lenguajes incluyendo ES.
QA
Ver ↗
Dataset— · Multi
XNLI
Conneau et al.
Inferencia en lenguaje natural en 15 idiomas incluyendo ES.
NLI
Ver ↗
Dataset— · Multi
PAWS-X
Google
Identificación de paráfrasis cross-lingual.
NLU
Ver ↗
Dataset— · Multi
WikiAnn (PAN-X)
Rahimi et al.
NER multilingüe basado en Wikipedia.
NER
Ver ↗
Dataset— · ES
CoNLL-2002 Spanish NER
CoNLL
El benchmark clásico de NER en español.
NEREspañol
Ver ↗
Dataset— · Multi
MASSIVE
Amazon
NLU intents + slots en 51 idiomas (Alexa).
NLU
Ver ↗
CC-BY-4.0
Dataset— · ES
Spanish Billion Words Corpus
Cristian Cardellino
Mil millones de palabras en español para embeddings.
CorpusEspañol
Ver ↗
Dataset— · ES
TASS Corpora (SEPLN)
SEPLN
Análisis de sentimiento en español — referencia académica LATAM/España.
SentimentEspañol
Ver ↗
Dataset— · Multi
AmericasNLP Shared Tasks
AmericasNLP
Datasets para lenguas indígenas de las Américas (Quechua, Aymara, etc).
IndígenasLATAM
Ver ↗
Dataset— · Multi
IberLEF
SEPLN / Iberoamericana
Shared tasks iberoamericanas — datasets ES y PT cada año.
Iberoamericana
Ver ↗
Dataset— · Multi
Latxa Corpus
HiTZ / EHU
Corpus y modelos en euskera — alto estándar académico.
Euskera
Ver ↗
Dataset— · Multi
AfriBERTa & Friends (analogía LATAM)
Comunidad NLP
Inspira el patrón para corpora regionales — referencia metodológica.
Referencia
Ver ↗
Dataset— · Multi
Hugging Face Datasets Hub
Hugging Face
Meta-recurso: el hub donde encuentras todos los anteriores y más.
Meta
Ver ↗
Tooling—
LangChain
LangChain Inc.
Framework Python/TS para aplicaciones LLM — el estándar de facto.
Framework
Ver ↗
MIT
Tooling—
LangGraph
LangChain Inc.
Grafos de estado para construir agentes con control fino.
Agents
Ver ↗
MIT
Tooling—
LlamaIndex
LlamaIndex
Data framework para RAG y conexiones de datos a LLMs.
RAG
Ver ↗
MIT
Tooling—
Hugging Face Transformers
Hugging Face
La librería universal para cargar y usar modelos abiertos.
Models
Ver ↗
Apache-2.0
Tooling—
vLLM
UC Berkeley
Inferencia de LLM ultra-rápida con PagedAttention.
Inference
Ver ↗
Apache-2.0
Tooling—
Ollama
Ollama
Corre LLMs locales con un comando — la forma más fácil.
Local
Ver ↗
MIT
Tooling—
LM Studio
LM Studio
UI desktop para descargar y correr modelos open locales.
LocalUI
Ver ↗
Tooling—
llama.cpp
Georgi Gerganov
Inferencia C/C++ ultra-portable de Llama y otros modelos.
InferenceLocal
Ver ↗
MIT
Tooling—
Text Generation Inference (TGI)
Hugging Face
Servidor de inferencia de LLMs en producción.
Inference
Ver ↗
Apache-2.0
Tooling—
DSPy
Stanford NLP
Programación declarativa de pipelines de LLM, con auto-optimización.
Framework
Ver ↗
MIT
Tooling—
AutoGen
Microsoft
Framework multi-agente con conversaciones entre agentes.
Agents
Ver ↗
MIT
Tooling—
CrewAI
CrewAI
Orquestación de equipos de agentes especializados.
Agents
Ver ↗
MIT
Tooling—
Pydantic AI
Pydantic
Agentes type-safe en Python con la rigidez de Pydantic.
Agents
Ver ↗
MIT
Tooling—
Instructor
Jason Liu
Salidas estructuradas (JSON/Pydantic) garantizadas para LLMs.
Structured
Ver ↗
MIT
Tooling—
Outlines
dottxt
Generación estructurada y guiada por regex/grammar.
Structured
Ver ↗
Apache-2.0
Tooling—
Guidance
Microsoft
Control programático sobre la generación de LLMs.
Structured
Ver ↗
MIT
Tooling—
LiteLLM
BerriAI
Cliente unificado para 100+ proveedores de LLM (formato OpenAI).
Gateway
Ver ↗
MIT
Tooling—
OpenRouter
OpenRouter
Una API para ruteo entre múltiples proveedores y modelos.
Gateway
Ver ↗
Tooling—
Helicone
Helicone
Observabilidad LLM: logs, monitoreo de costos, evaluaciones.
Observability
Ver ↗
Apache-2.0
Tooling—
Langfuse
Langfuse
Observabilidad y eval abiertos para LLM apps.
Observability
Ver ↗
MIT
Tooling—
Ragas
Exploding Gradients
Evaluación de sistemas RAG con métricas automatizadas.
EvalRAG
Ver ↗
Apache-2.0
Tooling—
MLflow
Databricks
Ciclo de vida ML: tracking, modelos, despliegue.
MLOps
Ver ↗
Apache-2.0
Tooling—
Weights & Biases
W&B
Tracking de experimentos y evaluaciones — gratis para uso personal.
MLOps
Ver ↗
Tooling—
Chroma
Chroma
Vector database open source, embebible, sencilla.
VectorDB
Ver ↗
Apache-2.0
Tooling—
Qdrant
Qdrant
Vector database en Rust — rápida y robusta.
VectorDB
Ver ↗
Apache-2.0
Tooling—
Weaviate
Weaviate
Vector database con módulos generativos y multi-modal.
VectorDB
Ver ↗
BSD-3
Tooling—
Milvus
Zilliz
Vector database open source escalable a billones de vectores.
VectorDB
Ver ↗
Apache-2.0
Tooling—
pgvector
Andrew Kane
Búsqueda vectorial dentro de PostgreSQL.
VectorDBSQL
Ver ↗
PostgreSQL
Tooling—
Sentence Transformers
UKPLab
Embeddings semánticos de oraciones — referencia open.
Embeddings
Ver ↗
Apache-2.0
Tooling—
OpenAI Whisper
OpenAI
ASR open source multilingüe — funciona bien en ES.
ASR
Ver ↗
MIT
Tooling—
Faster Whisper
SYSTRAN
Whisper acelerado (CTranslate2) — 4× más rápido.
ASR
Ver ↗
MIT
Tooling—
Open WebUI
Open WebUI Contributors
UI tipo ChatGPT para modelos locales (Ollama y otros).
UILocal
Ver ↗
MIT
Tooling—
AnythingLLM
Mintplex Labs
App de escritorio para RAG sobre tus documentos.
RAGLocal
Ver ↗
MIT
Tooling—
n8n
n8n
Automatización low-code con nodos para LLMs y APIs.
Automation
Ver ↗
Sustainable-Use
Tooling—
Modal
Modal Labs
Serverless compute para correr Python/GPUs sin gestionar infra.
Compute
Ver ↗
Tooling—
Replicate
Replicate
Corre modelos open con una API — ideal para experimentar.
Inference
Ver ↗
Tooling—
Model Context Protocol (MCP)
Anthropic
Estándar abierto para conectar herramientas y datos a agentes.
Standard
Ver ↗
MIT
Tooling—
NVIDIA Triton Inference Server
NVIDIA
Servidor de inferencia multi-framework de producción.
Inference
Ver ↗
BSD-3
Tooling—
PEFT
Hugging Face
Parameter-Efficient Fine-Tuning (LoRA, QLoRA, etc).
Fine-tuning
Ver ↗
Apache-2.0
Tooling—
TRL — Transformer Reinforcement Learning
Hugging Face
RLHF, DPO y otros métodos de alineamiento listos para usar.
Fine-tuning
Ver ↗
Apache-2.0
Modelo— · Multi
Llama 3.3 70B Instruct
Meta
Flagship 70B open con calidad cercana a GPT-4o.
LLMChat
Ver ↗
Llama Community
Modelo— · Multi
Llama 3.1 8B / 70B / 405B
Meta
Familia completa, 405B fue el primer flagship open competitivo.
LLM
Ver ↗
Llama Community
Modelo— · Multi
Mistral 7B / Small / Medium
Mistral AI
Modelos open de excelente relación calidad/tamaño.
LLM
Ver ↗
Apache-2.0
Modelo— · Multi
Mixtral 8x7B / 8x22B
Mistral AI
Sparse MoE — fuerte rendimiento a menor compute.
LLMMoE
Ver ↗
Apache-2.0
Modelo— · Multi
Qwen2.5 (0.5B → 72B)
Alibaba
Familia muy capaz, fuerte en multilingüe.
LLM
Ver ↗
Apache-2.0
Modelo— · Multi
DeepSeek-V3
DeepSeek AI
MoE open de 671B parámetros (~37B activos), competitivo con frontier.
LLMMoE
Ver ↗
MIT
Modelo— · Multi
DeepSeek-R1
DeepSeek AI
Modelo de razonamiento entrenado por RL puro — open.
Reasoning
Ver ↗
MIT
Modelo— · EN
Phi-3.5 / Phi-4
Microsoft
Small Language Models de alta calidad y licencia MIT.
SLM
Ver ↗
MIT
Modelo— · Multi
Gemma 2 / Gemma 3
Google DeepMind
Familia open ligada a la tecnología de Gemini.
LLM
Ver ↗
Gemma
Modelo— · Multi
Falcon 3
TII (UAE)
Modelos abiertos de TII con licencia comercial.
LLM
Ver ↗
TII Falcon LLM
Modelo— · Multi
Yi-1.5 (6B / 9B / 34B)
01.AI
Modelos open competitivos especialmente en chino e inglés.
LLM
Ver ↗
Apache-2.0
Modelo— · EN
OLMo 2
AI2
Fully-open: pesos + datos + código de entrenamiento.
Open-Reproducible
Ver ↗
Apache-2.0
Modelo— · Multi
Granite 3 / 4
IBM
Familia enterprise-friendly con licencia Apache 2.0.
LLMEnterprise
Ver ↗
Apache-2.0
Modelo— · EN
Nemotron 70B
NVIDIA
Llama afinado por NVIDIA para alta calidad de respuesta.
LLM
Ver ↗
Llama Community
Modelo— · EN
SmolLM2
Hugging Face
Familia ultra-pequeña (135M / 360M / 1.7B) para edge.
EdgeSLM
Ver ↗
Apache-2.0
Modelo— · Multi
StableLM 2 (1.6B / 12B)
Stability AI
Modelos open de Stability — comerciales con suscripción.
LLM
Ver ↗
Stability AI Membership
Modelo— · EN
Hermes 3
Nous Research
Fine-tunes de Llama 3 muy populares para asistentes.
Chat
Ver ↗
Llama Community
Modelo— · Multi
BLOOM 176B
BigScience
Modelo masivo open multilingüe — el primer hito open de escala.
LLMHistoric
Ver ↗
RAIL
Modelo— · EN
CodeLlama (7B / 13B / 34B / 70B)
Meta
Llama afinado para código — múltiples tamaños.
Code
Ver ↗
Llama Community
Modelo— · EN
Qwen2.5-Coder
Alibaba
Líder open en código a inicios de 2025.
Code
Ver ↗
Apache-2.0
Modelo— · EN
DeepSeek-Coder V2
DeepSeek AI
Coder open muy competitivo con propietarios.
Code
Ver ↗
MIT
Modelo— · Multi
Whisper Large v3
OpenAI
ASR multilingüe state-of-the-art open.
ASR
Ver ↗
MIT
Modelo— · EN
Stable Diffusion 3.5
Stability AI
Generador de imágenes open con licencia comercial bajo membresía.
Image
Ver ↗
Stability AI Community
Modelo— · EN
FLUX.1 [schnell]
Black Forest Labs
Generación de imágenes top open con licencia Apache 2.0.
Image
Ver ↗
Apache-2.0
Modelo— · EN
SDXL Turbo
Stability AI
Generación de imágenes en tiempo real con SDXL.
Image
Ver ↗
Stability NCC
Modelo— · ES
MarIA (RoBERTa-large-bne)
BSC / PlanTL
Modelo grande en español — referencia académica.
Español
Ver ↗
Apache-2.0
Modelo— · ES
BERTIN
BERTIN Project
BERT/RoBERTa en español entrenado de forma eficiente.
Español
Ver ↗
CC-BY-4.0
Modelo— · PT
Sabiá (7B / 65B)
Maritaca AI
LLM en portugués brasileño — open weights.
Portugués
Ver ↗
CC-BY-NC-SA
Modelo— · Multi
Latxa
HiTZ / EHU
LLM en euskera — referencia para lenguas regionales.
Regional
Ver ↗
Llama Community
Modelo— · ES
RigoChat (es)
Comunidad ES
Iniciativas de chat fine-tuneados en español.
EspañolChat
Ver ↗
Varios

Aportar al catálogo

¿Conoces un recurso que falta?

Especialmente datasets LATAM o tooling open. Lo evaluamos para la próxima revisión.

Sugerir recurso

Modelos IA descargables · Corre LLMs gratis local

Attention Is All You Need

BERT: Pre-training of Deep Bidirectional Transformers

GPT-3 — Language Models are Few-Shot Learners

Scaling Laws for Neural Language Models

Training Compute-Optimal LLMs (Chinchilla)

Chain-of-Thought Prompting Elicits Reasoning

InstructGPT — Training LMs to Follow Instructions with RLHF

LoRA: Low-Rank Adaptation of LLMs

Retrieval-Augmented Generation for NLP

Deep RL from Human Preferences

ReAct: Synergizing Reasoning and Acting in LMs

Constitutional AI: Harmlessness from AI Feedback

Tree of Thoughts: Deliberate Problem Solving

DPO: Direct Preference Optimization

LLaMA: Open and Efficient Foundation LMs

Llama 2: Open Foundation and Fine-Tuned Chat

The Llama 3 Herd of Models

Mistral 7B

Mixtral of Experts

Sparks of Artificial General Intelligence (GPT-4)

FlashAttention: Fast & Memory-Efficient Exact Attention

Toolformer: LMs Can Teach Themselves to Use Tools

Voyager: Open-Ended Embodied Agent with LLMs

Reflexion: Verbal Reinforcement Learning

Self-Refine: Iterative Refinement with Self-Feedback

DSPy: Compiling Declarative LM Calls into Self-Improving Pipelines

Gemini 1.5 Technical Report

Phi-3 Technical Report

DeepSeek-R1: Reasoning via RL

Qwen2 Technical Report

BERTIN: Efficient Pre-training of a Spanish LM

Sparks of Spanish AI — MarIA Project

OSCAR

mC4

CulturaX

CC-100

Common Voice

VoxPopuli

OpenSubtitles

SQAC — Spanish QA Corpus

MLQA

XNLI

PAWS-X

WikiAnn (PAN-X)

CoNLL-2002 Spanish NER

MASSIVE

Spanish Billion Words Corpus

TASS Corpora (SEPLN)

AmericasNLP Shared Tasks

IberLEF

Latxa Corpus

AfriBERTa & Friends (analogía LATAM)

Hugging Face Datasets Hub

LangChain

LangGraph

LlamaIndex

Hugging Face Transformers

vLLM

Ollama

LM Studio

llama.cpp

Text Generation Inference (TGI)

DSPy

AutoGen

CrewAI

Pydantic AI

Instructor

Outlines

Guidance

LiteLLM

OpenRouter

Helicone

Langfuse

Ragas

MLflow

Weights & Biases

Chroma

Qdrant

Weaviate