Recuperación de imágenes y vídeos

Grupo 1 - Asignatura Recuperación y acceso a la información

Recuperación de vídeos

La recuperación de video involucra diferentes tareas entre las que se incluyen el análisis de su contenido, la extracción, modelización y posteriores indización y consulta. Si hablamos de los videos tal y como los hicimos con las imágenes podemos descomponerlos en varios niveles estructurados de forma jerárquica que, en su nivel más bajo pueden expresarse como conjuntos de frames y que a más alto nivel se identifican por tomas, escenas o episodios.

Segmentación

Podemos considerar una toma como un conjunto de frames grabados por una cámara determinada de forma secuencial y que representan una acción continua en el espacio y el tiempo. Un grupo de tomas homogéneas formará una escena y un grupo de escenas un determinado episodio. Las operaciones de cámara tales como el zoom dificultan la diferenciación (automática) correcta de las tomas aumentando la complejidad de la recuperación. Existen técnicas de detección de cambio de tomas:

  • Comparación directa de píxeles o histogramas: la comparación de píxeles se realiza comparando conjuntos de píxeles de frames consecutivos, si un número significante de píxeles varía se detecta un cambio de toma. Aunque parezca simple es una operación muy costosa y dependiente además de pequeños cambios como pueden ser los contrastes o el zoom. Algo más robusto es el método de comparación de histogramas, en el que se detecta un cambio de toma si los histogramas de dos frames consecutivos difieren lo bastante entre si.
  • Compresión: en el caso de los videos comprimidos, algunos formatos de compresión proporcionan información adicional que ayuda en la detección de los cambios de escena. Por ejemplo MPEG proporciona coeficientes como DCT (son vectores asociados a las escenas) que permiten mediante su comparación detectar cambios de escena.
  • Reconocimiento automático de texto: existe la posibilidad de utilizar el reconocimiento automático de texto para usar el subtitulado como método de indización y recuperación. De esta forma se usan métodos de reconocimiento de caracteres para analizar el subtitulado y utilizar los términos más relevantes como palabras claves en la indización. En este caso siempre se obtendrán mejores soluciones cuando la recuperación se aplica con métodos que involucran al usuario de forma combinada. De esta forma los términos extraídos de forma automática pueden ser validados y valorados para etiquetar una escena según su relevancia.

Detección de objetos y pistas

En un video hay dos grupos de información que pueden ser usados para identificar objetos y sus relaciones, propiedades visuales del objetos como el color o la textura e información relacionada con el propio movimiento tales como vectores de desplazamiento. Una estrategia típica consiste en dividir por secciones basándonos en el color y las texturas. Una vez seccionado el espacio compararemos colores y atributos de distintas secciones y vectores de desplazamiento de los objetos obteniendo así posibles trayectorias de los objetos que nos permiten tenerlos identificados pese al movimiento. Además podemos mantener una serie de características importante tales como la adyacencia de objetos o las relaciones encima, debajo, dentro etc.

Por otro lado podemos recurrir a patrones como el color de la piel humana tras aplicar MPEG junto con la detección de formas para identificar un rostro humano en un video comprimido previamente.

Por último destacar que aplicando la técnica de los vectores de desplazamiento, una vez identificado el objeto, nos será posible identificar qué personajes u objetos detectados entran y salen de escena. De la misma forma, pero aplicando técnicas algo más avanzadas podemos saber que movimientos típicos hace por ejemplo una mano humana de forma que con los patrones de piel y forma y con los vectores de movimiento podamos identificar un gesto típico como un saludo o un golpe.

Indización y recuperación

Tenemos que tener en cuenta que la naturaleza más compleja del video así como su mayor tamaño hace que se requiera de funciones especiales para su indización, navegación y recuperación a través de consultas. Una técnica usada habitualmente consiste en detectar los cambios de toma y marcarlos asociándoles una pequeña marca. De esta forma la recuperación a través de marcas, texto y características de la toma será más sencilla que accediendo al propio video.

En un punto anterior indicamos que los videos se podían descomponer por niveles de forma jerárquica. Este modelo jerárquico facilita mucho la recuperación en diferentes niveles puesto que proporciona una gran cantidad de operaciones espacio temporales por las que limitar la búsqueda, por ejemplo si buscamos por tomas podemos acceder a varias tomas consecutivas, o sólo a l que precede a una determinada, o quizás queramos buscar por relaciones del tipo la escena que contiene una toma, o incluso por una transición determinada. Existen lenguajes de recuperación como HTL (Hierarchical Temporal Language) que proporcionan una gran cantidad de operadores espacio-temporales además de niveles de jerarquía adicionales por debajo de las tomas lo cual da incluso mayor precisión.

En cuanto a los sistemas de recuperación basados en los objetos y los personajes, estos siempre dependerán de dos factores: el primero que sistema de detección que apliquemos sea lo bastante bueno como para identificar los objetos relevantes de la escena, el segundo que seamos capaces de recuperar los objetos identificados a través de las consultas expresadas en lenguaje natural. Estos problemas son muy similares a los expresados en la recuperación de imágenes.