Quiero clasificar las imágenes por características estilísticas. ¿Debo usar búsquedas de palabras clave de las descripciones de las imágenes o usar una herramienta de clasificación de imágenes / aprendizaje automático?

Búsquedas de palabras clave

Esto probablemente no clasifique todas las imágenes, ya que las descripciones de las imágenes no mencionan necesariamente las características estilísticas. Pero podría manipular fácilmente las características estilísticas que busca su algoritmo.

Algoritmos de aprendizaje automático:

Base no supervisada en la descripción

Podrías hacer k-means en la descripción y agrupar las imágenes. Estos grupos entonces representarían categorías (para las cuales aún tendría que pensar en un nombre). Pero no estarías categorizando las imágenes reales. Estarías categorizando sus descripciones. De esta manera, el sistema podría terminar distinguiendo entre estilos de escritura de autores en lugar de estilos de imagen.

Supervisado en base a la descripción
Una solución para esto sería usar un conjunto de datos de imagen con metadatos que contenga características estilísticas y descripciones. Use esto para entrenar un algoritmo de clasificación como un SVM, una red neuronal artificial o un bosque aleatorio. Las entradas serían la descripción y las características estilísticas de salida.

Extracción de características estilísticas de datos de imagen sin procesar
Otro enfoque sería aprender las características estilísticas directamente de la imagen. Hay varios enfoques que clasifican algo diferente. La información podría combinarse y utilizarse para la agrupación de imágenes k-means.

  • Estimación de la edad de una pintura: aprendizaje automático y procesamiento de imágenes para investigación de arte
  • Esto puede clasificar el estilo de pintura de una pintura en los estilos Expresionista abstracto, Barroco, Cubista, Impresionista, Graffiti, Renacimiento – Combinando múltiples núcleos para una clasificación de imagen eficiente
  • Esto puede distinguir entre estilos afectivos, estéticos, artísticos y hacer un análisis compositivo. Mejora de las características semánticas con análisis de composición para el reconocimiento de escenas
  • Identificación de un artista en función de sus pinceladas: procesamiento de imágenes para la identificación del artista

Gracias por el A2A.

¿Qué quieres decir con rasgos “estilísticos”? ¿Qué tipo de imágenes son estas? ¿Qué tan precisa es la descripción? ¿De dónde sacaste tu conjunto de datos? Decidir qué método de categorización de imagen usar dependerá de sus respuestas a estas preguntas.

Si las descripciones de las imágenes proporcionan suficiente información para la categorización de imágenes, siempre puede usar palabras clave, n-gramas u otras características textuales para la categorización. En este caso, en realidad estará categorizando según el texto, lo que lo convierte en un problema de categorización de texto en el dominio del procesamiento del lenguaje natural o la lingüística computacional.

Si las descripciones de la imagen no proporcionan suficiente información para la categorización de la imagen, entonces debe usar las funciones de la imagen. Estos podrían ser SIFT, HAAR, histogramas de color, etc. En este caso, estará clasificando según la imagen, lo que lo convierte en un problema en el dominio de la visión por computadora.

También es posible hacer una categorización de imagen multimodal mediante el uso de características tanto de las imágenes como del texto.

Para el aprendizaje supervisado, necesitará un conjunto de datos de imágenes que ya están categorizadas. Las características de estas imágenes se pueden usar para entrenar un clasificador de aprendizaje automático.
Es decir, supongamos que para la tarea de clasificación necesita una función f (x) = y, donde y = categoría_1, categoría_2, categoría_3, etc. Y x = características de las imágenes.
Antes de la fase de entrenamiento, dado un conjunto de datos de imágenes ya anotadas, ya tiene y y x. No tienes f. Durante la fase de entrenamiento, el algoritmo de aprendizaje automático se aproximó a la función f basada en x e y. Esta función f se llama clasificador.
Ahora, durante la fase de prueba (es decir, cuando ejecuta el clasificador), el vector de características x se extraerá de cada imagen no etiquetada y se pasará como entrada a la función f. f generará la etiqueta y, que será la categoría.

Para el aprendizaje no supervisado, no necesita un conjunto de datos de imágenes ya categorizadas. Un ejemplo sería la agrupación k-means. En la agrupación de k-means, el algoritmo clasifica las imágenes con características similares como pertenecientes a la misma categoría.

¡Espero que esto ayude! 🙂