Una nueva característica de Google Docs permitirá que cuando subamos documentos PDF e imágenes a este servicio se puedan tratar de reconvertir esos documentos a texto con un software propio de reconocimiento de caracteres.
La característica ya lleva un tiempo disponible de forma experimental, y Google ha tenido desde entonces suficiente tiempo para irla afinando y mejorando para convertirla ahora en una opción por defecto en la subida de documentos a Google Docs.
En Google Operating System han realizado unas pruebas básicas y han comprobado que aunque la conversión de PDF a texto funciona, está lejos de ser perfecta, con un 10% del texto incorrectamente convertido, y con la ausencia del formato original, lo que hace del reconocimiento OCR en Google Docs una característica limitada, aunque útil.
vINQulos



Supongo que utilizarán Tesseract, que es el ocr libre de Google (aunque lo empezó HP, creo).
Lo he utilizado muchas veces, y si bien es cierto que la tasa de reconocimiento es muy alta, no respeta el layout de la página, y depende mucho de que el formato de ésta sea homogéneo en cuanto a tamaño y tipo de letra.
De todas formas, no veo la utilidad de este servicio cuando es algo que se puede hacer mucho más cómodamente desde el escritorio… a menos que sea otro producto en la línea de cargarse el escritorio en favor de la nube.
Deja bastante que desear, hice algunas pruebas con páginas de libros escaneadas de ~2500 x ~3500px a 300dpi y de 1 bit por pixel, que es lo mejor que se le puede dar a un software de OCR para que haga correctamente su trabajo, y los resultados no son buenos, abby online lo hace mucho mejor.
@lucas pues tú no le veras usos pero yo desde luego muchísimos solamente en una empresa en la que hemos montado google apps y gmail me vendría ahora mismo de perlas para que los fax (todos están por email) funcionasen los pdf por ocr para enviarlos a los departamentos correspondientes con los filtros de redireccionamiento de correo. Evidentemente google no piensa en el escritorio tradicional sino ‘que está en las nubes’ jejeee….
Yo usé el tesseract para el PFC (qtesseract), y bueno, la API de google de OCR está en costante desarrollo. Te ofrece lo de uno de pago pero sin layout. Lo de la tasa de reconocimiento, no hay ninguna 100%. Para uso personal esta muy bien, pero para empresarial se necesitaria más.