Recuperación de imágenes
La recuperación de imágenes es un proceso que consiste en la obtención de una imagen concreta y relevante para un usuario de entre un conjunto de imágenes. El grado de relevancia de la imagen vendrá marcado por la naturaleza de la aplicación utilizada en la recuperación. En una base de datos de un periódico la relevancia vendrá marcada por la fecha, la hora, o incluso el momento en el que la foto fue tomada teniendo tanta importancia como el propio contenido visual. En cambio en un entorno de fabricación industrial la relevancia la puede adquirir la coincidencia en la imagen con un patrón en textura y color. Muchas bases de datos relacionales proporcionan campos de almacenamiento que permiten almacenar atributos tales como fechas, horas, resolución de la imagen y origen, por otro lado los sistemas basados en el contexto analizan el contenido visual de las imágenes y los indexan por sus características. Actualmente se desarrollan nuevos sistemas de almacenamiento mixtos que proporcionan ambos sistemas de indización.
Recuperación basada en características visuales
Los contenidos visuales pueden representarse como abstracciones con un sentido jerárquico. En el primer nivel están las propiedades físicas de la imagen, píxeles que almacenan información de color o brillo. El siguiente nivel está representado por campos con información tal como curvas, ángulos, formas de objetos, regiones de color o sombras. Más alto en el nivel de abstracción se encuentra la combinación de estos atributos como propiedades que definen objetos. Por último a nivel más alto se encontrarían los propios objetos y las relaciones que podríamos establecer entre ellos.
Aunque existen métodos de reconocimiento y detección automática que nos permiten identificar objetos e incluso relaciones básica de estos en la imagen, la efectividad es muy variable y depende en gran medida de propia imagen. Es muy complicado que un sistema automático extraiga de forma correcta atributos o relaciones entre objetos de una imagen a alto nivel. En estos casos siempre será mejor y mucho más preciso utilizar sistemas semiautomáticos o incluso no-automáticos en los que es una persona la que analiza y etiqueta la imagen a todos los niveles necesarios.
Características visuales: color, textura, forma
- El color es un factor muy importante en el proceso de recuperación de imágenes, incluso a nivel más básico como es el esquema de color utilizado. Las distintas representaciones de color RGB, HSI, etc. se corresponden con el grado de precisión que se quiera obtener en la representación del color. Si bien es cierto que cualquier color perceptible por el ojo humano puede representarse como una combinación de rojo, verde y azul (RGB). De esta forma podemos tener combinaciones de casi 17 millones de colores si usamos 24 bits por píxel, por lo que se hace necesario un algoritmo de identificación de colores muy preciso para mejorar la eficiencia de las búsquedas.
- La textura es una característica visual difícil de representar puesto que en una imagen determinada puede ser algo común o muy concreto según el caso, por ejemplo puede ser una característica diferenciadora de varias piezas de fruta o simplemente un patrón que se repite como el gotelé de una pared. La mejor forma de representar las texturas es dividiendo el análisis en dos grupos, estructural si las texturas son claramente identificables en los elementos y estadístico si hablamos de un grado mucho más preciso tal como variaciones de la intensidad.
- Hay que precisar que esta separación de análisis se extiende no sólo a nivel de texturas sino a más altos de la imagen, lo que supone que un análisis estadístico medirá elementos tales como el contraste o la intensidad, sin embargo uno estructural evaluará posiciones de los objetos en la imagen, intentará representar formas e incluso representará relaciones como la conectividad de elementos adjuntos o las zonas de la imagen en la que nos podemos encontrar más objetos.
- En cuanto a la forma, es una de los atributos más complicados en lo que a métodos de recuperación se refiere, puesto que en muchos casos las formas más claras no se corresponden con los objetos más relevantes de la imagen. Además el proceso de las distintas formas es muy distinto según la naturaleza de la imagen, así será muy diferente el algoritmo de recuperación de enfermedades de la piel comparado con el de aviones de combate. Por otro lado, dado que la relevancia de los objetos no se corresponde con su claridad o posición en la imagen, es posible que sean necesarias transformaciones previas al proceso de recuperación tales como rotaciones o escalados de forma que se reduzca el ruido. Por otro lado este proceso se hace complicado en escenas que involucran muchos elementos, puesto que aunque el algoritmo consiga identificar el objeto e incluso su forma, puede que esta quede desvirtuada por sombras, brillos u oclusiones de otros elementos. Los algoritmos deben manejar muchas variables una vez que la forma del objeto queda predeterminada recurriendo a elementos característicos en el objeto que ayuden a identificar la forma y de esta manera la imagen en la búsqueda.
Indización y recuperación de imágenes
Para indizar la imágenes haciendo referencia a los atributos antes nombrados existe un método bastante común basado en obtener valores numéricos que representan cada uno de los n atributos que queremos representar, quedando así cada objeto representado por una secuencia que representa los n niveles. Posteriormente se utilizan métodos de acceso multidimensionales (árboles o variantes) para indizar y recuperar.
Con este método se deben resolver tres problemas principales, el primero, que la mayoría de los métodos de recuperación multidimensional asumen, que cada uno de los niveles a representar es independiente de los demás. Segundo, a no ser que se haga de forma concreta, hay información específica de cada imagen que puede perderse si no queda cubierta por uno de los niveles, lo que significa que se perderá y no podrá recuperarse dicha imagen haciendo referencia a esos atributos nunca más. Por último el tercer problema está relacionado con la eficiencia de las recuperaciones cuando el número de niveles es muy alto. Varias soluciones se han desarrollado para resolver estos problemas.
- Indización y recuperación basada en el color. La representación del color se hace a través de histogramasque almacenan el número de pixeles que hay de cada color en una imagen. Estos dos histogramas de color se compararán píxel a píxel detectando de esta forma las más pequeñas variaciones entre dos imágenes. Existen varios problemas que afectan a este método, como por ejemplo representar la misma imagen en formatos distintos lo que hace que el contenido de determinados pixeles pueda cambiar aunque la imagen sea la misma. No todas las zonas de la imagen tienen la misma relevancia por lo que además de los colores debería almacenarse de alguna manera la disposición espacial de los elementos y su relevancia. Algunos métodos optan por almacenar sólo los elementos más relevantes de cada imagen y aplicar el método de los histogramas de color a estas zonas de mayor relevancia. Por último, está el problema del tamaño, puesto que un histograma de colores puede almacenar millones de variantes por lo que se hacen necesarias transformaciones que simplifiquen los algoritmos y mejoren la eficiencia.
- Indización y recuperación basada en la textura y la forma.Los métodos relacionados con estas características son muy similares por lo que se puede hacer referencia a ambas en el mismo apartado. Los métodos basados en texturas y formas se diferencias de los de color en que no se evalúan píxel a píxel sino por regiones o zonas, por lo que primero se hace necesaria la identificación de las distintas zonas. Las técnicas que mejor funcionan en la recuperación de imágenes por texturas son las que aplican fractales para buscar regiones con texturas similares. En cuanto a las formas, los métodos que mejor funcionan son aquellos que aplican métodos similares a los comentados anteriormente con vectores n-dimensionales que reflejan n-niveles de representación aunque actualmente se utilizan también métodos que simplifican haciendo aproximaciones de los objetos a figuras más simples lo que mejora el almacenamiento y los tiempos de recuperación. Por último comentar que existen más métodos relacionados con la forma como aplicar búsquedas sobre las imágenes simplificadas(convertidas a blanco y negro por ejemplo); este método simplifica el proceso de detección de formas pero obliga at transformar la imagen o a almacenar varias versiones de la misma para evitar perder información en la transformación.
Detección y reconocimiento de objetos
El proceso de reconocimiento de objetos en una imagen incluye un proceso previo muy importante, la detección. El proceso de reconocimiento será más sencillo si un proceso previo ha detectado y separado los distintos elementos que componen la imagen. Existen dos métodos, basados en características y basados en plantillas. En ambos se deben aplicar transformaciones previas a las imágenes. En método basado en características, se determinan una o varias características de los objetos y se buscan en la imagen basándose en ellas. Por ejemplo si se quiere buscar una cara humana se pueden utilizar como características la distancia entre los ojos, la disposición de ojos nariz y boca, transformado el problema en un grafo en el que buscamos coincidencias con estas características. Los métodos de plantilla se aplican por ejemplo en la distinción de objetos basándonos en objetos reconocidos por lo que se hacen comparaciones de la imagen con objetos similares a los que queremos extraer de ella y que nos son conocidos.
Relaciones espaciales
Existen métodos bastante eficientes en la detección de relaciones espaciales entre objetos. Las relaciones que se suelen representar implican pares de elementos y son del tipo A a la izquierda de B, B a la derecha de A, C encima de D, H dentro de I etc. Las relaciones espaciales son muy importantes en la recuperación de imágenes médicas (en imágenes de rayos X, localización de tumores etc.) y se deducen aunque las búsquedas de los usuarios no las incluyan específicamente.
Recuperación basada en características no visuales
Los sistemas comerciales de recuperación de imágenes normalmente usan bases de datos relacionales apoyándose en tecnologías mejoradas orientadas a los formatos de almacenamientos de imagen. En estos sistemas, los campos específicos de cada imagen como el origen, la fecha y la hora en la que fue tomada, el formato, la resolución, el método de compresión y las anotaciones que pueden ir asociadas son los elementos más importantes par la indización.
Las anotaciones son descripciones libres que se realizan sobre la imagen, suelen ser típicos para la mayoría de los usuarios y fáciles de recuperar utilizando métodos básicos de recuperación. Sin embargo, a pesar de ser tan conocidos y usados representan un gran reto para los sistemas de recuperación puesto que dos personas pueden describir la misma imagen de formas muy distintas, usando palabras distintas, destacando distintos aspectos, remarcando elementos distintos y realizando la descripción a distintos niveles.
Una forma típica de unir diferentes descripciones de una misma imagen es realizar la consulta utilizando además del motor de búsqueda de la base de datos un tesauro. A través del tesauro, que refleja relaciones entre los términos podría ser capaz de relacionar los términos y determinar que describen la misma imagen.
Las descripciones estructuradas de una imagen son descripciones en lenguaje natural incluyendo sus restricciones, el simbolismo de las palabras, las relaciones no especificadas entre objetos y los atributos inherentes a estos por lo que la recuperación a través de estas arroja un problema adicional basado en la complejidad del propio lenguaje.


