Compara más de 40 modelos LLM: precio, contexto, licencia y coste mensual.
Filtros
Más económico para esta carga—
Coste más alto—
Mayor contexto—
Aviso. Los precios son una instantánea y pueden cambiar sin previo aviso. Las cifras son USD por 1.000.000 de tokens. Los modelos de pesos abiertos muestran precios de referencia en APIs de inferencia alojada (Together, Fireworks, Groq, Bedrock, etc.) y varían según el proveedor. Los puntos de referencia son los mejores números publicados en tarjetas de modelo oficiales y blogs de proveedores: dependen de la versión del benchmark, el prompt y la configuración de evaluación; trátelos como una clasificación aproximada, no una medición exacta. Verifique siempre con el proveedor antes de comprometer presupuesto o tomar decisiones críticas de calidad.
Cara a cara
Selecciona de 2 a 4 modelos en la vista de tabla usando la columna de casillas. Aparecerán aquí en paralelo con la métrica ganadora resaltada, más un gráfico de radar comparando sus benchmarks publicados.
Aún no hay modelos seleccionados. Abre la vista de tabla, marca 2 a 4 filas y vuelve aquí.
Elige un caso de uso
Preguntas frecuentes
Comienza con tres ejes: calidad, tamaño de contexto y coste, y clasifícalos según tu carga de trabajo. Los chatbots toleran modelos más pequeños (Haiku 4.5, GPT-4o mini, Gemini Flash, Nova Micro). Los agentes y asistentes de código se benefician de modelos de razonamiento (o3, o4-mini, Claude Sonnet 4.5 con pensamiento extendido, DeepSeek R1, Grok 3, Qwen QwQ). Los flujos de documentos largos necesitan contexto de 200K+ (Claude, Gemini 2.5 Pro, GPT-4.1 con 1M, Llama 4 Scout con 10M). Introduce tu volumen de tráfico real en la calculadora de costes de esta página para obtener una estimación mensual antes de comprometerte.
Sí, con matices. No existe ningún LLM entrenado específicamente para ingeniería civil, estructural o de construcción, pero los modelos de frontera generales con sólidas capacidades de matemáticas, razonamiento, visión y código pueden ayudar con: lectura de normas (Eurocode, ACI, SNiP), verificación de combinaciones de cargas, escritura de scripts de cálculo en Python/MATLAB/Grasshopper, extracción de cantidades de planos, generación de hojas de cálculo de presupuesto, cotejo de especificaciones y resumen de RFIs o documentos de obra. Nunca confíes en la respuesta numérica de un modelo sin verificación independiente. Los LLMs fabrican números plausibles, citan mal las normas y pasan por alto casos límite. Trátelos como un par de ojos extra, no como un ingeniero certificado.
Cualquier modelo etiquetado con la capacidad Visión acepta imágenes. Para leer planos de construcción, extraer dimensiones de PDFs escaneados o analizar fotos de defectos, las puntuaciones públicas más altas en MMMU (comprensión multimodal) provienen de: o3 y o4-mini, Claude Sonnet/Opus 4.5, Gemini 2.5 Pro y Llama 4 Maverick. Para presupuestos más ajustados, Gemini 2.5 Flash, GPT-4.1 mini, Claude Haiku 4.5 y Nova Lite son opciones sólidas. Opciones de visión de código abierto: Llama 3.2 90B Vision y Pixtral Large. Ten en cuenta que los planos arquitectónicos y estructurales densos requieren un OCR muy preciso; verifica siempre los números y símbolos extraídos con el original antes de usarlos en cálculos.
No. Son las mejores puntuaciones publicadas en tarjetas de modelo oficiales y blogs de proveedores. Dos modelos con el mismo MMLU a menudo se sienten muy diferentes en la práctica; los benchmarks se saturan con el tiempo y las evaluaciones más nuevas (GPQA Diamond, SWE-bench Verified, AIME) son objetivos móviles. Usa los números como clasificación aproximada, no como medición exacta. Para una decisión importante, realiza tu propia evaluación con una muestra representativa de tus datos reales.
Las APIs cerradas (GPT, Claude, Gemini) son la ruta más rápida a producción: cero infraestructura, calidad de frontera y disponibilidad con SLA. Las desventajas son la dependencia de proveedor, las restricciones de residencia de datos y el precio elevado en niveles flagship. Los modelos de pesos abiertos (Llama 3.1 y 3.3, Mistral, DeepSeek) permiten el autoalojamiento para costes predecibles y control total de datos, a cambio de gestionar infraestructura GPU y el escalado. Un punto intermedio común es usar un proveedor de inferencia alojada (Together, Groq, Fireworks, Bedrock) para modelos de pesos abiertos: mantienes la portabilidad del checkpoint sin gestionar servidores.
La ventana de contexto es el límite máximo de texto que cabe en una sola llamada: el prompt del sistema, los mensajes del usuario y la salida del modelo deben estar por debajo del límite. Una ventana de 128K contiene unas 100K palabras en inglés, una de 200K unas 150K, y 1M tokens de Gemini 1.5 cabe una novela corta. Si superas el límite, la solicitud se rechaza o se trunca silenciosamente, y las partes anteriores de la conversación pueden perderse. Para pipelines RAG, documentos largos o agentes de múltiples turnos, elige un modelo cuyo contexto supere cómodamente el percentil 95 de tu tamaño de llamada.
Los proveedores cerrados ofrecen ajuste fino en modelos seleccionados (GPT-4o mini, GPT-3.5 Turbo, Gemini 1.5 Flash), normalmente adaptadores tipo LoRA expuestos a través de su API. Los modelos de pesos abiertos son totalmente ajustables (pesos completos, LoRA, QLoRA, DPO, cualquier método) porque posees el checkpoint. Para la mayoría de los equipos, la ingeniería de prompts y la recuperación resuelven el 90% de la brecha de calidad; recurre al ajuste fino solo cuando las salidas estructuradas, la concordancia de tono o el vocabulario de dominio sigan siendo incorrectos tras un prompt bien elaborado.
Los tokens de entrada se procesan en paralelo durante la etapa de prefill: el prompt completo pasa por el modelo una vez y se construye la caché KV. Los tokens de salida se generan uno a uno, de forma autorregresiva, con cada nuevo token dependiendo de todos los anteriores — las GPU no pueden paralelizar este paso, por lo que el rendimiento cae en un orden de magnitud. Los proveedores trasladan ese coste de latencia como una prima de precio de 3x a 5x en los tokens de salida. El almacenamiento en caché de prompts y las solicitudes por lotes son las principales palancas para reducir el coste efectivo.
La tabla refleja una instantánea tomada en abril de 2026 e incluye modelos lanzados hasta principios de 2026. Los proveedores de LLM ajustan los precios y deprecan versiones varias veces al año, por lo que siempre debes verificar la tarifa actual en la página oficial de precios del proveedor antes de firmar un contrato o dimensionar un presupuesto de producción. Nada de lo que escribas en la calculadora de costes se envía a ningún lugar: toda la comparación se ejecuta localmente en tu navegador.
Herramienta de comparación de modelos de lenguaje de gran tamaño (LLM): GPT-4o, Claude 3.5, Gemini, Llama, Mistral y más de 40 modelos. Filtra por proveedor (OpenAI, Anthropic, Google, Meta, etc.), licencia (comercial/código abierto), precio máximo de entrada y ventana de contexto mínima. Compara dos modelos cara a cara en latencia, precio y contexto. Calculadora de coste mensual: introduce tokens de entrada/salida y llamadas por mes para obtener el coste estimado. Datos actualizados con precios en $/1M tokens.