How to process visual and textual data from catalog images

Hi everyone! I need your help with something. I’m fairly new to building software with AI, just like the company I work for. What I’m looking for is to get your points of view, propose alternative approaches, and/or receive feedback.

We have a manual process that we call “justifying” the catalog. Justification consists of extracting variables from the catalog. These variables can be textual (for example, a price or the names of fragrances) or visual, such as seals (e.g., a “2015 Silver Award” badge in an image) and others. These variables are very specific to our company.

The manual for “justifying” is stored in a Confluence space. This manual contains a large number of example images so that any new person in the company can correctly “justify” the catalog. An experiment was done with a Custom GPT, which we connected to our Confluence (text only), and we also added our own reference images from Confluence. When we ask it to justify, it works quite well, with around 90% accuracy.

But… now we are productizing what exists in Custom GPT for the entire company. We have created an API that can partially justify the entire catalog. What we do is extract all the text from Confluence (without images) and send it in the prompt together with the image to be analyzed to the GPT-5.2 Pro model. However, the result is not the same, even though the knowledge used is the same as in Custom GPT. I want to believe that adding the images we have in Confluence will solve our problems, but I’m not sure if it will work. And if so, what would be the best way to implement this multimodal RAG?

The idea is for the model to read the knowledge base plus its example images and use them as if they were a manual to be able to “justify” each page of our catalog.

As a SWE, at first it didn’t seem that complex to me, but now that I’ve gone deeper into the details, I realize it’s a completely new world—very interesting, though. I would really appreciate feedback and documentation that I could read.

1 Like

Maybe try out a multimodal joint image/text embedding model?

The one I use, and has been around forever, is “Titan Multimodal Embeddings G1”

Desc: “Titan Multimodal Embeddings Generation 1 (G1) is a multimodal embeddings model for use cases like searching images by text, image, or a combination of text and image. Designed for high accuracy and fast responses, this model is an ideal choice for search and recommendations use cases.”

2 Likes

So, you can load a bunch of images and then analyze all of them based on text, images, or a combination thereof? I have somthing similar. Do you use gpt-5.2?

1 Like

Couple of questions: What exactly do you mean by “justify“? Can you give details on the knowledge base e.g. size, format, is it updated? How are your images created?

1 Like

Hi Jeff,

I’ll answer both questions:

  1. Yes, it’s almost exactly as you describe. The idea is to upload the catalog page by page and analyze each one based on a manual that contains a combination of text and images.

  2. Justifying is a term used within my company that we could define as “identifying different visual variables from a catalog or magazine mockup, such as the type of fragrance being sold, its placement within the catalog, the page number, etc.”

    The knowledge base is hosted in Confluence. Its size (text only) is approximately 120k characters, or around 30k tokens for GPT-5. And yes, it is fully up to date. The images have been extracted by users via copy-paste from previous catalogs; they are screenshots. I’m attaching an image so you can better visualize the knowledge source.

2 Likes

Interesting. My initial thoughts are to use a combination of RAG (for the knowlege base) and structered outputs for the API. You can use OpenAI’s Vision model to help with justification.

https://platform.openai.com/docs/guides/images-vision#analyze-images

Of course, there is much more to this… Not familiar with creating custom GPTs.

Here is an quick example of a vision analysis (en español) of your image:

Análisis del diseño del anuncio del catálogo de perfumes

I. Composición y formato general
La imagen presenta un desplegable de catálogo de dos páginas, de estilo revista, que anuncia fragancias. El diseño es limpio y de alta gama, con la página izquierda dominada por un retrato de belleza en primer plano acompañado de un frasco de perfume blanco y escultórico, y la página derecha centrada en dos fotos de producto sobre un fondo luminoso y etéreo. El desplegable utiliza abundante espacio en blanco, degradados suaves y un desorden visual mínimo para enfatizar el lujo y el diseño del producto, mientras que la información de precios y descuentos se dispone en bloques claros y legibles cerca de las secciones inferiores.

II. Sujeto y foco visual de la página izquierda
La página izquierda presenta un retrato en primer plano de una mujer mostrada desde los hombros hacia arriba, posando en un entorno de estudio pulido con iluminación suave y uniforme y sombras mínimas. Su mirada se dirige hacia la cámara, y el estilismo general sugiere una estética de belleza y fragancia premium. El objeto más destacado en primer plano es un frasco blanco y escultórico, con contornos acanalados en forma de ondas, sostenido cerca del rostro de la modelo. La forma del frasco se percibe como un objeto artístico, reforzando el tema de la página de que el perfume se trata como una pieza de diseño elaborada y no solo como una mercancía.

III. Color, iluminación y claves de estilismo en la página izquierda
La página izquierda se apoya en una paleta sobria y neutra: tonos de piel cálidos, rosas suaves y blancos. La iluminación es difusa y favorecedora, produciendo un efecto de piel tersa y sutiles brillos en las estrías del frasco que acentúan su textura. El vestuario parece ser de un tejido pálido, tipo satén, con un brillo suave, que complementa el acabado blanco mate a satinado del frasco. La impresión general es refinada y contemporánea, alineada con las convenciones de marca de fragancias de lujo.

IV. Texto y detalles promocionales de la página izquierda
El titular de la página izquierda dice “Liberatta” con el eslogan “Arte hecho perfume.” Debajo aparece un párrafo descriptivo que indica: “Con notas fascinantes de iris y orquídea blanca sobre un fondo cálido de madera de sándalo. Aroma floral maderoso”, seguido de un indicador de intensidad mostrado como una fila de círculos rellenos. Los detalles de producto y precio incluyen “Liberatta Parfum Cont. 50 ml” y un bloque promocional que dice “OFERTA S/ 155” y “35% dscto.”, con “P. Normal S/ 239” y “CÓD. 236.” Cerca de la parte inferior izquierda aparece una pequeña insignia de premio que dice “pentawards 2015 SILVER AWARD.” Una marca de agua vertical a lo largo del margen izquierdo indica “CatalogosDeMujer.com.”

V. Presentación del producto y fondo en la página derecha
La página derecha presenta dos frascos de perfume como foco central, colocados ligeramente a la derecha del centro y en ángulo para mostrar sus contornos. El fondo es brillante y luminoso, con tonos amarillos suaves y crema y formas flotantes similares a pétalos que sugieren calidez, ligereza y una atmósfera romántica. En la parte superior, una línea de texto en español dice: “Un regalo para quienes convierten el amor en su mejor leyenda,” enmarcando los productos como adecuados para regalar y con resonancia emocional. Los frascos están numerados “1” y “2” debajo de sus bases, vinculándolos con las descripciones correspondientes en la parte inferior.

VI. Diseños de frascos y señales de marca en la página derecha
El frasco “1” contiene una fragancia de color amarillo dorado en un envase redondeado y facetado con una tapa esférica negra y brillante, creando un contraste marcado que atrae la atención hacia la silueta superior. El frasco “2” es de un tono ámbar marrón más profundo con una forma igualmente elegante y una tapa esférica en tono dorado. Se ve más oscuro y más intenso, en consonancia con la denominación “Intense”. Ambos frascos están etiquetados con la línea de marca “ÍCONO DE YANBAL”, y el segundo dice “ÍCONO DE YANBAL INTENSE”, comunicando una oferta en pareja: una fragancia principal y una variación más concentrada o más rica.

VII. Texto, notas y estructura de precios en la página derecha
En la parte inferior, la página derecha enumera los dos artículos como “Ícono” e “Ícono Intense”. Para “Ícono”, el texto incluye “Eau de Parfum”, “Cont. 50 ml” y un bloque promocional que dice “OFERTA S/ 107” y “40% dscto.”, con “P. Normal S/ 179” y “CÓD. 2191.” La descripción alude a matices dulces y floral amaderados, incluyendo “clementina, ylang y sándalo”, e indica “Aroma floral maderoso” con una fila de círculos rellenos como indicador de intensidad. Para “Ícono Intense”, el texto incluye “Eau de Parfum”, “Cont. 50 ml” y la misma promoción “OFERTA S/ 107” y “40% dscto.”, con “P. Normal S/ 179” y “CÓD. 2202.” Su descripción enfatiza un perfil más fuerte y cálido, mencionando “ylang ylang, notas de cedro y crema de vainilla”, y lo clasifica como “Aroma floral ambarado”, también acompañado de un indicador de intensidad.

VIII. Mensaje de marca y estrategia de marketing
El desplegable utiliza una estrategia dual: sofisticación artística en la izquierda mediante retrato y empaque escultórico, y claridad comparativa de producto en la derecha mediante frascos en paralelo, notas e idéntica oferta promocional de precio. La reiteración de familias olfativas, notas de ingredientes e indicadores de intensidad ofrece apoyo rápido a la decisión, manteniendo a la vez un tono premium. El formato de precio en español con “S/” y los porcentajes de descuento destacados señalan un contexto de catálogo o venta directa, equilibrando una presentación lujosa con incentivos explícitos orientados al valor.

Análisis del diseño del anuncio del catálogo de perfumes

I. Composición y formato general
La imagen presenta un desplegable de catálogo de dos páginas, de estilo revista, que anuncia fragancias. El diseño es limpio y de alta gama, con la página izquierda dominada por un retrato de belleza en primer plano acompañado de un frasco de perfume blanco y escultórico, y la página derecha centrada en dos fotos de producto sobre un fondo luminoso y etéreo. El desplegable utiliza abundante espacio en blanco, degradados suaves y un desorden visual mínimo para enfatizar el lujo y el diseño del producto, mientras que la información de precios y descuentos se dispone en bloques claros y legibles cerca de las secciones inferiores.

II. Sujeto y foco visual de la página izquierda
La página izquierda presenta un retrato en primer plano de una mujer mostrada desde los hombros hacia arriba, posando en un entorno de estudio pulido con iluminación suave y uniforme y sombras mínimas. Su mirada se dirige hacia la cámara, y el estilismo general sugiere una estética de belleza y fragancia premium. El objeto más destacado en primer plano es un frasco blanco y escultórico, con contornos acanalados en forma de ondas, sostenido cerca del rostro de la modelo. La forma del frasco se percibe como un objeto artístico, reforzando el tema de la página de que el perfume se trata como una pieza de diseño elaborada y no solo como una mercancía.

III. Color, iluminación y claves de estilismo en la página izquierda
La página izquierda se apoya en una paleta sobria y neutra: tonos de piel cálidos, rosas suaves y blancos. La iluminación es difusa y favorecedora, produciendo un efecto de piel tersa y sutiles brillos en las estrías del frasco que acentúan su textura. El vestuario parece ser de un tejido pálido, tipo satén, con un brillo suave, que complementa el acabado blanco mate a satinado del frasco. La impresión general es refinada y contemporánea, alineada con las convenciones de marca de fragancias de lujo.

IV. Texto y detalles promocionales de la página izquierda
El titular de la página izquierda dice “Liberatta” con el eslogan “Arte hecho perfume.” Debajo aparece un párrafo descriptivo que indica: “Con notas fascinantes de iris y orquídea blanca sobre un fondo cálido de madera de sándalo. Aroma floral maderoso”, seguido de un indicador de intensidad mostrado como una fila de círculos rellenos. Los detalles de producto y precio incluyen “Liberatta Parfum Cont. 50 ml” y un bloque promocional que dice “OFERTA S/ 155” y “35% dscto.”, con “P. Normal S/ 239” y “CÓD. 236.” Cerca de la parte inferior izquierda aparece una pequeña insignia de premio que dice “pentawards 2015 SILVER AWARD.” Una marca de agua vertical a lo largo del margen izquierdo indica “CatalogosDeMujer.com.”

V. Presentación del producto y fondo en la página derecha
La página derecha presenta dos frascos de perfume como foco central, colocados ligeramente a la derecha del centro y en ángulo para mostrar sus contornos. El fondo es brillante y luminoso, con tonos amarillos suaves y crema y formas flotantes similares a pétalos que sugieren calidez, ligereza y una atmósfera romántica. En la parte superior, una línea de texto en español dice: “Un regalo para quienes convierten el amor en su mejor leyenda,” enmarcando los productos como adecuados para regalar y con resonancia emocional. Los frascos están numerados “1” y “2” debajo de sus bases, vinculándolos con las descripciones correspondientes en la parte inferior.

VI. Diseños de frascos y señales de marca en la página derecha
El frasco “1” contiene una fragancia de color amarillo dorado en un envase redondeado y facetado con una tapa esférica negra y brillante, creando un contraste marcado que atrae la atención hacia la silueta superior. El frasco “2” es de un tono ámbar marrón más profundo con una forma igualmente elegante y una tapa esférica en tono dorado. Se ve más oscuro y más intenso, en consonancia con la denominación “Intense”. Ambos frascos están etiquetados con la línea de marca “ÍCONO DE YANBAL”, y el segundo dice “ÍCONO DE YANBAL INTENSE”, comunicando una oferta en pareja: una fragancia principal y una variación más concentrada o más rica.

VII. Texto, notas y estructura de precios en la página derecha
En la parte inferior, la página derecha enumera los dos artículos como “Ícono” e “Ícono Intense”. Para “Ícono”, el texto incluye “Eau de Parfum”, “Cont. 50 ml” y un bloque promocional que dice “OFERTA S/ 107” y “40% dscto.”, con “P. Normal S/ 179” y “CÓD. 2191.” La descripción alude a matices dulces y floral amaderados, incluyendo “clementina, ylang y sándalo”, e indica “Aroma floral maderoso” con una fila de círculos rellenos como indicador de intensidad. Para “Ícono Intense”, el texto incluye “Eau de Parfum”, “Cont. 50 ml” y la misma promoción “OFERTA S/ 107” y “40% dscto.”, con “P. Normal S/ 179” y “CÓD. 2202.” Su descripción enfatiza un perfil más fuerte y cálido, mencionando “ylang ylang, notas de cedro y crema de vainilla”, y lo clasifica como “Aroma floral ambarado”, también acompañado de un indicador de intensidad.

VIII. Mensaje de marca y estrategia de marketing
El desplegable utiliza una estrategia dual: sofisticación artística en la izquierda mediante retrato y empaque escultórico, y claridad comparativa de producto en la derecha mediante frascos en paralelo, notas e idéntica oferta promocional de precio. La reiteración de familias olfativas, notas de ingredientes e indicadores de intensidad ofrece apoyo rápido a la decisión, manteniendo a la vez un tono premium. El formato de precio en español con “S/” y los porcentajes de descuento destacados señalan un contexto de catálogo o venta directa, equilibrando una presentación lujosa con incentivos explícitos orientados al valor.

3 Likes

The model I mentioned above will give you an embedding vector on just the image alone, or the vector from joint image and text content. So after you get the vector, it’s just simple dot products and ranking from there to pick from and feed context to your follower model.