viernes, 31 de octubre de 2008

Google indexa documentos escaneados

El objetivo de Google es clasificar el máximo de información posible de la disponible en la red. Para ello, implementan en su buscador soporte para cada vez más tipos de ficheros. Ya hace mucho tiempo que permiten las búsquedas dentro de PDF, siempre que estos contuvieran texto.

El problema estaba en documentos PDF con imágenes, algo que han solucionado mediante el uso de un OCR para convertir imágenes en texto. De este modo, también son capaces de buscar dentro de documentos escaneados que, de otro modo, no podían ser indexados.

Esta era información que, aunque accesible, no podía ser interpretada de manera automática por un ordenador, por tanto no había manera de ofrecerla en los resultados. Es por ello que Google andaba detrás del proyecto OCRopus y aquí se ven los primeros resultados.
En un futuro (y aquí estoy teorizando) podrían utilizarse técnicas similares para mejorar los resultados de Google Images que, de momento, dependen del contexto de la página donde están situadas las imágenes. Ciertamente, es mucho más complicado que hacerlo con documentos escaneados, pero la calidad de los resultados mejoraría muchísimo.
Ejemplo:
http://www.google.com/search?q=theory+of+interstellar+trade
Más info:
http://googleblog.blogspot.com/2008/10/picture-of-thousand-words.html

No hay comentarios

No te lo puedes perder

© Planeta digital
Maira Gall