ver más

OpenAI presentó ChatGPT Images 2.0, su nuevo modelo de generación de imágenes con capacidad de razonamiento y búsqueda web. Para medir su rendimiento, en El Observador lo pusimos a prueba contra Google Nano Banana 2 con referencias uruguayas como campo de pruebas.

El modelo, disponible en la API como gpt-image-2, incorpora mejoras en precisión, comprensión de instrucciones y representación de texto, y puede crear hasta ocho imágenes coherentes entre sí a partir de un mismo prompt. La novedad más fuerte es que razona y busca en la web antes de generar, para verificar información y producir contenido más exacto. También mejora el rendimiento multilingüe, suma realismo —incluyendo imperfecciones propias de fotografías— y amplía formatos. El modelo razonador, eso sí, queda reservado a los usuarios de pago.

La comparativa se armó con ambos modelos razonadores activados, para exigirles el máximo poder computacional, y todos los resultados corresponden al primer intento, sin iteraciones posteriores. Un usuario que itere puede obtener versiones más fieles.

Las referencias elegidas fueron: el chajá, el mate, un mapa de Montevideo, el Estadio Centenario, la Torre de Antel, la Batalla de Las Piedras, el "uruguayo promedio", el Palacio Salvo y un retrato de José Artigas.

Round por round: dónde gana cada modelo

Dos apreciaciones generales quedaron claras desde el inicio. La primera: la búsqueda web no funciona de manera del todo fidedigna. La segunda: ambos modelos se equivocan con Uruguay.

ChatGPT Images 2.0 interpreta mejor la intención en el primer intento. En el pedido del chajá, entendió el paso a paso sin necesidad de prompts detallados. Lo mismo ocurrió con la imagen sobre cómo hacer un mate. Nano Banana 2, con un prompt más detallado, podría llegar a resultados similares.

En el mapa de Montevideo, ChatGPT no resuelve bien las proporciones, dibuja la ciudad de forma incorrecta y omite nombres de departamentos como Maldonado. La incorporación de búsqueda web en el modelo no alcanzó para cubrir esas fallas.

En el Estadio Centenario, Gemini se acercó más: acertó en la existencia de la Torre de los Homenajes. La versión de ChatGPT replica la fisonomía general pero le erra. En la Torre de Antel, el resultado se invierte: ChatGPT es el que más se aproxima a la forma y hasta intenta replicar el logotipo.

En la Batalla de Las Piedras, Gemini se equivoca con la fecha. El resultado final de ChatGPT resulta más atractivo visualmente. En el "uruguayo promedio", Gemini devuelve una versión exagerada con camiseta celeste, mate y termo, y ChatGPT repite un estereotipo similar con termo y mate.

En el Palacio Salvo, Gemini entiende el entorno casi a la perfección, salvo por un detalle menor en la fachada de la Torre Ejecutiva. ChatGPT, en cambio, no interpreta bien el contexto. En el retrato de José Artigas, ChatGPT capta mejor el estilo y el rostro: la fisonomía resulta más reconocible que la de Gemini.

En el balance general de esta comparativa, ChatGPT Images 2.0 se impone por un margen mínimo sobre Nano Banana 2.

Seguí leyendo