Descriptor visual

Un descriptor visual descriu les característiques visuals dels continguts disposats en imatges i vídeos. Descriuen característiques elementals com la forma, color, la textura i el moviment, entre altres. Com a conseqüència de les noves tecnologies de comunicació i l'ús massiu d'Internet a la societat, la quantitat d'informació audiovisual disponible en format digital està arribant a xifres realment espectaculars. És per aquest motiu que ha estat necessari dissenyar un sistema que ens permeti descriure el contingut de diversos tipus d'informació multimèdia, per poder-los buscar i classificar.

Els encarregats de descriure el contingut són els anomenats descriptors audiovisuals. Aquests tenen un bon coneixement dels objectes i fets presents en un vídeo, imatge o àudio i permeten buscar els continguts d'una manera ràpida i eficient.

Aquest sistema es pot comparar amb els buscadors de contingut textual. És cert que amb un ordinador és relativament senzill trobar text, però en canvi, és molt més complicat trobar parts concretes d'àudio i vídeo. Imaginem algú buscant una escena d'una persona feliç. La felicitat és un sentiment i no és evident la descripció de la seva forma, color i textura a les imatges.

La descripció del contingut audiovisual no és una tasca trivial i és essencial per a la utilització eficaç d'aquest tipus de fitxers. El sistema estandardització per excel·lència que explota els descriptors audiovisuals és el MPEG-7 (Motion Picture Expert Group - 7).

Tipus de descriptors visuals

Els descriptors són el primer pas per poder trobar la connexió entre els píxels continguts en una imatge digital i allò que els humans recordem després d'haver observat durant uns minuts una imatge o un conjunt d'imatges.

Els descriptors visuals es divideixen en dos grups:

Descriptors d'informació general: contenen descriptors de baix nivell, proporcionant una descripció sobre el color, formes i regions, textures i moviment.
Descriptors d'informació de domini específic: proporcionen informació sobre els objectes i fets que van apareixent a l'escena. Un exemple molt concret seria el reconeixement facial.

Descriptors d'informació general

Els descriptors d'informació general consisteixen en descriptors que cobreixen diferents característiques visuals bàsiques i elementals com són: el color, textura, forma, moviment i localització, entre altres. La descripció és generada automàticament mitjançant processament del senyal.

COLOR: és la qualitat més bàsica del contingut visual. Es defineixen cinc eines per descriure el color. Les tres primeres fan referència a la distribució del color. Mentre que les dues restants, la primera fa referència a la distribució espacial del color i l'última descriu la relació del color entre una seqüència o conjunt d'imatges:
- Dominant Color Descriptor (DCD)
- Scalable Color Descriptor (SCD)
- Color Structure Descriptor (CSD)
- Color Layout Descriptor (CLD)
- Group of frame (GoF) o Group-of-pictures (GoP)

TEXTURA: és una altra qualitat molt important per poder descriure una imatge. Es dissenya per poder caracteritzar les textures i regions d'una imatge. Observen l'homogeneïtat de les regions i els histogrames dels contorns d'aquestes. El conjunt de descriptors està format per:
- Homogeneous Texture Descriptor (HTD)
- Texture Browsing Descriptor (TBD)
- Edge Histogram Descriptor (EHD)

FORMA: posseeix informació semàntica molt important, perquè els humans són capaços de reconèixer els objectes només per la seva forma. No obstant això, aquesta característica només pot ser aplicada amb una segmentació similar a la que realitza el sistema visual humà. Avui en dia encara no està disponible, però si que existeixen alguns algoritmes que ens donen una bona aproximació. Aquests descriptors descriuen les regions, contorns i formes per imatges 2D i volums 3D. Els descriptors són els següents:
- Region-based Shape Descriptor (RSD)
- Contour-based Shape Descriptor (CSD)
- 3-D Shape Descriptor (3-D SD)

MOVIMENT: es defineix amb quatre descriptors que descriuen el moviment en les seqüències de vídeo. Aquest moviment va associat als objectes de la seqüència o bé al mateix moviment de la càmera. Aquesta darrera informació és proporcionada pel mateix dispositiu de captura, mentre que la resta es realitza mitjançant processament del senyal. El conjunt de descriptors és:
- Motion Activity Descriptor (MAD)
- Camera Motion Descriptor (CMD)
- Motion Trajectory Descriptor (MTD)
- Warping and Parametric Motion Descriptor (WMD and PMD)

LOCALITZACIÓ: dels elements dins d'una imatge s'utilitza per descriure els elements dins del domini espacial, o bé, en el domini temporal d'una seqüència. Els dos descriptors que ho permeten són els següents:
- Region Locator Descriptor (RLD)
- Spatio Temporal Locator Descriptor (STLD)

Descriptors d'informació de domini específic

Aquests descriptors no són simples, ja que és difícil d'automatitzar un sistema que sigui capaç de donar informació semàntica, malgrat això, cal dir, que es poden generar manualment o ser processats de forma automàtica.

Tal com s'ha esmentat anteriorment, un exemple concret d'una aplicació que intenta extraure aquest tipus d'informació de forma automàtica seria el de reconeixement facial.

Aplicacions dels descriptors

Entre totes les seves aplicacions, les més importants són:

Potents buscadors o classificadors de documents multimèdia.
Biblioteques digitals. Permeten la cerca, de manera molt detallada i concreta, de qualsevol àudio, vídeo o imatge, mitjançant diferents tipus de paràmetres de cerca: des de la cerca de l'última pel·lícula on hi surt un actor conegut, fins a buscar tots els vídeos on apareix la muntanya Everest.
Servei de notícies electròniques personalitzat.
Possibilitat d'una connexió automàtica al canal de televisió que estigui emetent un partit de futbol, cada vegada que un jugador s'acosti a l'àrea de gol, per exemple.
Filtrat i control de certs continguts audiovisuals. Per exemple, material violent o pornogràfic no apte per a certes persones. També permet l'autorització per alguns continguts multimèdia.

Vegeu també

Bibliografia

B.S. Manjunath (Editor), Philippe Salembier (Editor), and Thomas Sikora (Editor): Introduction to MPEG-7: Multimedia Content Description Interface. Wiley & Sons, April 2002 - ISBN 0-471-48678-7

Enllaços externs

Multimedia Content Analysis Using both Audio and Video Clues Arxivat 2006-09-01 a Wayback Machine. PDF (anglès)
Relating Visual and Semantic Image Descriptors PDF (anglès)
Fusing MPEG-7 visual descriptors for image classication PDF (anglès)
MPEG-7 Quick Reference Arxivat 2004-06-16 a Wayback Machine. PDF (anglès)