Cada tarea necesita su propio modelo

Por qué esto no es un artículo de benchmarks

Esto no es una clasificación. Dentro de Just, la pregunta útil no es qué modelo parece más inteligente en abstracto. Es cuál hace cada paso del flujo de trabajo más limpio, más estable y más confiable.

Por eso los valores predeterminados son deliberadamente desiguales. Algunos proveedores se ganan el núcleo de planificación repetidamente, mientras que otros tienen más sentido cuando la actualidad, la calidad de búsqueda o la salida multimodal importan más.

Si quieres ver cómo luce esa lógica ya integrada en el producto, Just 2.0: Insights, búsqueda web, imágenes y contexto compartido recorre el flujo de trabajo actual en la práctica.

Si quieres el mapa completo de capacidades, la matriz de IA en la página de inicio muestra qué soporta cada proveedor en cada función. La versión de abajo es la vista más corta, del tamaño de un artículo.

Función	OpenAI	Anthropic	Google	xAI	Mistral AI
Respuesta de texto
Respuesta con razonamiento
Salida estructurada
Generación de imágenes
Búsqueda web

Por qué Anthropic domina el núcleo

El núcleo de Just — preguntas de aclaración, planes estructurados, configuración de campos de issues y respuestas con razonamiento intenso — corre sobre Anthropic de forma predeterminada. Esa elección es deliberada y tiene un coste que he aceptado.

Paso	Modelo	Calidad	Velocidad	Precio
Respuestas de texto	Claude Opus 4.6	💡💡💡💡	⚡⚡	💲💲💲💲
Actualizaciones de campos y configuración de issues	Claude Opus 4.6	💡💡💡💡	⚡⚡	💲💲💲💲
Respuestas razonadas	Claude Opus 4.6	💡💡💡💡	⚡⚡	💲💲💲💲
Planes estructurados y especificaciones	Claude Opus 4.6	💡💡💡💡	⚡⚡	💲💲💲💲
Generación inicial de insights	Claude Sonnet 4.5	💡💡💡	⚡⚡⚡	💲💲💲
Compactación final	Claude Haiku 4.5	💡💡	⚡⚡⚡⚡	💲

En mi experiencia, los modelos de Anthropic son aproximadamente 2× más caros y 1,5× más lentos que las alternativas más cercanas para trabajo similar. Aun así los uso como predeterminados porque la salida es mejor en los aspectos que importan para la planificación.

La diferencia no es creatividad. Es concisión, adherencia a las instrucciones, estabilidad del razonamiento y salida estructurada más limpia. Claude Opus 4.6 sigue restricciones detalladas de forma más fiable, hace menos preguntas de aclaración innecesarias y necesita menos rondas de corrección cuando el flujo de trabajo espera planes estructurados.

El compromiso es real, pero dentro de un flujo de planificación prefiero pagar más por un primer borrador limpio que ahorrar dinero en salidas que luego necesitan corrección.

La preferencia central no se trata de lealtad a la marca. Se trata de obtener la salida de planificación más limpia y fiable en el punto donde la calidad se acumula.

Por qué Google domina la búsqueda y la generación de imágenes

Cuando el flujo de trabajo necesita contexto web fresco — análisis competitivo, búsquedas de documentación técnica y datos de mercado — la opción predeterminada cambia a Google. Concretamente, Gemini 3.0 Pro para investigación web.

Esto no es simplemente marcar una casilla de capacidades. Google lleva décadas resolviendo el ranking, la relevancia, la actualidad y la calidad de las fuentes a escala de internet. Eso importa cuando los resultados basados en la web alimentan directamente la planificación posterior. Si el paso de búsqueda extrae fuentes obsoletas o citas alucinadas, el plan construido sobre ellas hereda esos problemas.

El lado de las imágenes sigue la misma lógica. El predeterminado actual es Gemini 3.1 Flash Image Preview — conocido públicamente como Nano Banana 2. Maneja imágenes con texto incrustado con más consistencia que la mayoría de alternativas que he probado: las etiquetas permanecen legibles, el diseño se mantiene y la colocación del texto sigue el prompt en lugar de desviarse.

La calidad de búsqueda y la salida de imágenes multimodal son trabajos distintos a la planificación. Merecen predeterminados diferentes.

Dónde encajan OpenAI, xAI y Mistral

OpenAI es el comodín evidente: capaz en texto, razonamiento, salida estructurada, búsqueda web y generación de imágenes. Paradójicamente, esa amplitud es en parte por qué no es el predeterminado para el núcleo de planificación. Cuando un proveedor es fuerte en todo, a menudo acabas aceptando un resultado suficientemente bueno en todas partes en lugar del mejor donde más importa. Como solución de respaldo única sigue siendo difícil de superar, y es la opción más práctica para equipos que prefieren gestionar una sola clave de API en lugar de un stack mixto.
xAI ha madurado más rápido de lo que esperaba. Grok ahora soporta salida estructurada completa con adherencia garantizada al esquema, y su integración de búsqueda web es sólida. Donde encaja de forma más natural es en trabajo sensible a la velocidad — ideación temprana, búsquedas rápidas y borradores exploratorios donde el tiempo de respuesta importa más que el pulido.
Mistral encaja en tareas de texto ligeras y de alto volumen donde la eficiencia de costes es la restricción principal. También es la elección más natural para equipos con requisitos de residencia de datos en la UE o preferencia por un stack de proveedor europeo.

Cuándo elegir otros modelos

Los valores predeterminados reflejan mi criterio, no una ley universal. Hay buenas razones para sobrescribirlos.

Los equipos sensibles al coste pueden decidir que el multiplicador de Anthropic no vale la pena en su volumen.
Los equipos sensibles a la velocidad pueden preferir modelos más ligeros para triaje o ideación.
Algunas organizaciones quieren un solo proveedor por coherencia de tono, gobernanza o motivos de aprovisionamiento.

Si no quieres gestionar múltiples claves de API y proveedores, usar solo OpenAI para todo es una opción perfectamente razonable. Últimamente también encuentro Google Gemini cada vez más competitivo como solución general de respaldo — ambas opciones merecen probarse contra tus propias tareas antes de comprometerte con un stack.

Los valores predeterminados son un punto de partida, no una restricción. Los buenos predeterminados importan, pero los equipos reales siguen necesitando rutas de sobrescritura.

Configuración actual, no verdad eterna

El mapeo aquí refleja cómo pienso sobre las fortalezas de los proveedores hoy. Anthropic domina el núcleo porque sus modelos producen actualmente la mejor salida de calidad de planificación para los compromisos que estoy dispuesto a aceptar. Google domina la búsqueda y el trabajo con imágenes porque sus fortalezas de infraestructura se alinean naturalmente con esas tareas.

Estos valores predeterminados evolucionarán a medida que los modelos, los precios y los compromisos cambien. Lo que debería permanecer estable es la lógica subyacente: hacer coincidir al proveedor con el perfil de la tarea, no con una clasificación única.

Si estás configurando tu stack de proveedores por primera vez, empieza con los predeterminados, haz pasar algunos issues reales por el flujo de trabajo completo y luego sobrescribe donde las prioridades de tu equipo te señalen en una dirección diferente. El objetivo no es el modelo teóricamente mejor — es el stack que hace que tus issues de Jira sean mejores, más rápidos y con menos fricción.