Reconstrucción de la profundidad de una imagen

La reconstrucción de la profundidad de una imagen es un tipo de procesamiento digital de imágenes por el que a partir de imágenes bidimensionales se puede obtener información que permita una recreación de la distribución espacial real.

A pesar de que actualmente se están dedicando muchos esfuerzos en desarrollar algoritmos de reconstrucción de la profundidad a partir de dos o más imágenes, el análisis de características de una única imagen (como variaciones de la textura o el color) también puede aportar información sobre su profundidad.

Estimación de la profundidad

Para hacer la estimación de la profundidad de una imagen se divide esta en regiones cuadradas no superpuestas. A partir del análisis de estas regiones se puede obtener información sobre la profundidad absoluta (la profundidad de una región respecto al resto de la imagen) y la profundidad relativa (la profundidad de una región respecto a sus regiones vecinas) de cada región.

Profundidad absoluta

La profundidad absoluta de una región indica cuál es su profundidad en el contexto de la imagen global. Para estimar la profundidad absoluta de una región no basta con sus características locales, son necesarias características globales de la imagen. Para conseguir una buena estimación se trabaja con la imagen en distintas escalas. Esto es útil para encontrar la profundidad absoluta porque regiones a distintas profundidades tienen comportamientos completamente distintos cuando son analizadas a diferentes escalas. Por ejemplo, el cielo aparece muy similar en distintas escalas, pero una zona de hierba se ve muy distinta. Además, objetos cercanos aparecen más grandes en la imagen, por lo que se capturarán en escalas mayores, mientras que objetos más lejanos solo aparecen en escalas más pequeñas.

Profundidad relativa

La profundidad relativa de una región indica cuál es su profundidad respecto a sus regiones vecinas. Para estimar la profundidad relativa de una región se consideran características de sus regiones circundantes. Así, dos regiones colindantes con similares características de textura y color tendrán profundidades similares, mientras que si sus características son considerablemente distintas, también tendrán profundidades distintas.

Modelo probabilístico

Debido a que las características locales de la imagen no son suficientes para estimar su profundidad con exactitud suficiente, es necesario un análisis global de la estructura espacial de la escena. El modelo probabilístico establece relaciones entre la profundidad de diferentes regiones de la imagen mediante un campo aleatorio de Markov. El modelo probabilístico se puede desarrollar de dos modos distintos: modelo gaussiano o modelo laplaciano.

Modelo gaussiano

El modelo gaussiano es un campo aleatorio de Markov gaussiano que se define según la siguiente ecuación:

P_{G}(d\vert X;\theta ;\sigma )={\frac {1}{Z_{G}}}\exp \left(-\sum _{i=1}^{M}{\frac {(d_{i}(1)-x_{i}^{T}\theta _{r})^{2}}{2\sigma _{1r}^{2}}}-\sum _{s=1}^{3}\sum _{i=1}^{M}\sum _{j\in N_{s}(i)}{\frac {(d_{i}(s)-d_{j}(s))^{2}}{2\sigma _{2rs}^{2}}}\right)

El vector d_i(s) contiene las profundidades en las distintas escalas s=1,2,3 la región i de la imagen. N_s(i) corresponde a las cuatro regiones vecinas de i en la escala s. M es el nombre total de regiones de la imagen; Z es la constante de normalización del modelo; x_i es el vector de características de profundidad absoluta para la región i; ϕ y σ son parámetros del modelo.

Modelo laplaciano

El modelo laplaciano utiliza laplacianos para modelar la distribución de profundidades. La ecuación que lo define es la siguiente:

P_{L}(d\vert X;\theta ;\lambda )={\frac {1}{Z_{L}}}\exp \left(-\sum _{i=1}^{M}{\frac {\vert d_{i}(1)-x_{i}^{T}\theta _{r}\vert }{\lambda _{1r}}}-\sum _{s=1}^{3}\sum _{i=1}^{M}\sum _{j\in N_{s}(i)}{\frac {\vert d_{i}(s)-d_{j}(s)\vert }{\lambda _{2rs}}}\right)

Donde ϕ_r, λ_1r y λ_2r son parámetros propios del modelo. El modelo laplaciano presenta ciertas ventajas frente al modelo gaussiano. En primer lugar, el histograma de las profundidades relativas (d_i - d_j) es empíricamente más parecido al laplaciano que al gaussiano. En segundo lugar, el laplaciano es más robusto frente a errores. En tercer lugar, el modelo gaussiano presenta dificultades para ofrecer mapas de profundidad con contornos pronunciados, mientras que el laplaciano da mejores resultados en estos casos.

Referencias

3-D Depth Reconstruction from a Single Still Image (en inglés)

Datos: Q9067263