viernes, 31 de octubre de 2008

Google indexa documentos escaneados


El objetivo de Google es clasificar el máximo de información posible de la disponible en la red. Para ello, implementan en su buscador soporte para cada vez más tipos de ficheros. Ya hace mucho tiempo que permiten las búsquedas dentro de PDF, siempre que estos contuvieran texto.

El problema estaba en documentos PDF con imágenes, algo que han solucionado mediante el uso de un OCR para convertir imágenes en texto. De este modo, también son capaces de buscar dentro de documentos escaneados que, de otro modo, no podían ser indexados.

Esta era información que, aunque accesible, no podía ser interpretada de manera automática por un ordenador, por tanto no había manera de ofrecerla en los resultados. Es por ello que Google andaba detrás del proyecto OCRopus y aquí se ven los primeros resultados.
En un futuro (y aquí estoy teorizando) podrían utilizarse técnicas similares para mejorar los resultados de Google Images que, de momento, dependen del contexto de la página donde están situadas las imágenes. Ciertamente, es mucho más complicado que hacerlo con documentos escaneados, pero la calidad de los resultados mejoraría muchísimo.
Ejemplo:
http://www.google.com/search?q=theory+of+interstellar+trade
Más info:
http://googleblog.blogspot.com/2008/10/picture-of-thousand-words.html



No hay comentarios

No te lo puedes perder

Este sitio utiliza cookies de Google para brindar sus servicios y analizar el tráfico. Tu dirección de IP y usuario-agente se compartirán con Google, al igual que el desempeño y las métricas de seguridad, para asegurar la calidad del servicio, generar Estadísticas de uso, detectar y abordar los casos de abuso OK Más información
© 2025 Planeta digital
Maira Gall