Googlebot en el pasillo tres: ¿Cómo planea Google indexar el mundo?

¿Robots leyendo cajas de cereales en el supermercado? ¿Googlebot en el museo de arte? ¿Señales de tráfico y direcciones de edificios extraídas de imágenes de Street View para búsquedas locales, búsquedas de imágenes y búsquedas de productos? Tres nuevas solicitudes de patente publicadas en la Oficina de Patentes y Marcas de EE. UU. Esta semana exploran las complejidades de leer texto en imágenes tomadas de Google […]

¿Robots leyendo cajas de cereales en el supermercado? ¿Googlebot en el museo de arte? Señales de tráfico y direcciones de edificios arrebatadas vista de calle imágenes para búsqueda local, búsqueda de imágenes y búsqueda de productos?

Tres nuevas solicitudes de patente publicadas en la Oficina de Patentes y Marcas de EE. UU. Esta semana exploran las complejidades de leer texto en imágenes tomadas del proyecto Street View de Google y algunos pasos interesantes más allá. Describí varias de las implicaciones detrás de las solicitudes de patente en una publicación de SEO by the Sea de anoche: Google sobre la lectura de texto en imágenes de vistas a la calle, estanterías de tiendas e interiores de museos.

Echemos un vistazo ligeramente diferente.

Una de las publicaciones de blog más divertidas del año pasado fue una parodia titulada Google Interiors: el día en que mi casa se pudo buscar. La sátira parece haberse acercado un poco más a la realidad, con la publicación de estas tres solicitudes de patente.

Las solicitudes de patente involucradas son:

Los aspectos más sensacionales de los documentos llegan al final, donde se nos dice que los robots podrían usarse para tomar fotografías de productos en los estantes de las tiendas y en los museos. Un fragmento de las presentaciones:

Además de las escenas callejeras, la indexación se puede aplicar a otros conjuntos de imágenes. En una implementación, se indexa una tienda (por ejemplo, una tienda de comestibles o una ferretería). Las imágenes de los artículos dentro de la tienda se capturan, por ejemplo, utilizando un pequeño vehículo motorizado o un robot. Los pasillos de la tienda se atraviesan y las imágenes de los productos se capturan de una manera similar a la descrita anteriormente. Además, como se discutió anteriormente, la información de ubicación está asociada con cada imagen. El texto se extrae de las imágenes del producto. En particular, el texto extraído se puede filtrar utilizando una base de datos de nombres de productos para enfocar los resultados del reconocimiento de caracteres en los nombres de productos.

Hay un elemento de ciencia ficción en este mundo de robots que se desbocan en los supermercados, pero también hay mucha ciencia involucrada en los documentos. Las descripciones de cómo se puede tomar el texto de las imágenes de Street View describen una serie de técnicas que tienen en cuenta los problemas con las imágenes, como las causadas por el bajo contraste de las sombras y las sombras. El uso de imágenes consecutivas de las cámaras de Street View también puede mejorar la lectura de texto que puede estar borroso o parcialmente oculto a la vista en una o más tomas.

Aquí hay una captura de pantalla de las solicitudes de patente, que muestra varios lugares donde se puede extraer texto de una imagen:

google-images-1

Algunas de las técnicas de imagen descritas en este documento se insinuaron por primera vez en las solicitudes de patente detrás del proyecto del libro de Google, sobre el que escribí en el verano de 2006 en Las solicitudes de patente proporcionan una ventana a la Búsqueda de libros de Google y Gmail. Esos documentos discuten el uso del reconocimiento óptico de caracteres tanto para leer el texto dentro de los libros como para comprender las diferencias en los elementos estructurales de ese texto, de modo que, por ejemplo, los títulos de los capítulos en los libros o los títulos de los artículos en las revistas se puedan ver e indexar de manera diferente a texto del cuerpo de esos documentos.

Estas técnicas de reconocimiento y extracción de texto funcionarán con imágenes fijas digitales y con imágenes de video. Varias de las técnicas descritas funcionan mejor con video, donde puede haber múltiples imágenes de una vista desde ángulos ligeramente diferentes. Si el aparato de filmación de Street View también incluye un dispositivo de medición de distancia láser, descrito en las solicitudes de patente, eso también puede ayudar a eliminar los falsos positivos en el reconocimiento de texto.

Ha sido un viejo caballo de sierra durante años que Google no podía reconocer el texto que se mostraba en imágenes mientras indexaba páginas en la Web. Estas solicitudes de patente insinúan que Google puede hacer mucho más con las imágenes de lo que podemos imaginar.

Algunas de las cosas para las que esta tecnología podría usarse:

  • Mejorar la búsqueda local y mostrar imágenes de las ubicaciones reales de las empresas.
  • Proporcionar imágenes de otras empresas cercanas en una búsqueda local
  • Mostrar negocios alternativos cerca de una ubicación que pueden ofrecer productos o servicios similares durante una búsqueda local o de productos.
  • Representar puntos de referencia reales a lo largo de una ruta de conducción
  • Permitir una gama más amplia de búsquedas de palabras clave asociadas con empresas e imágenes de esas empresas.
  • Habilitar búsquedas de productos asociadas con negocios específicos en ubicaciones específicas
  • Permitir que los museos se busquen por palabra clave o se naveguen

Es difícil saber si veremos el robot de Google en las tiendas de comestibles y cuándo, pero probablemente deberíamos empezar a preguntarnos qué tan bien podría Google manejar el texto dentro de las imágenes en la Web en estos días.


Las opiniones expresadas en este artículo pertenecen al autor invitado y no necesariamente a El Blog informatico. Los autores del personal se enumeran aquí.


Deja un comentario