Até hoje a maior utilidade para a geração de imagens no formato PDF pesquisável tem sido a pesquisa de texto dentro da imagem. No segmento de ferramentas de GED/ECM este atributo é conhecido como busca full text. Na realidade o recurso que viabiliza esta pesquisa é o OCR – Reconhecimento de Caractere Óptico em português – que implica na ‘leitura’ das letras a partir da imagem e a formação de um arquivo índice com este texto. Este arquivo é transparente para o usuário ficando embutido dentro do PDF.

A equipe de digitalização tem sido a maior incentivadora deste formato de arquivo já que este atributo reduz a necessidade de indexadores uma vez que o usuário pode pesquisar qualquer termo dentro da imagem. É claro que esta facilidade exige uma captura cuidadosa, principalmente na hora do operador inserir as folhas no scanner. O papel não pode estar torto. Além disso, o tipo de papel capturado (fundo branco, sem marca d´água ou linhas) também é responsável pela assertividade deste OCR.

Em recente projeto me deparei com outra utilidade para o PDF pesquisável: os programas leitores de documentos utilizados por deficientes visuais. É claro que a leitura é impactada no caso de acentos, caracteres especiais, além de tabelas, gráficos etc. , mas este benefício estimula o responsável pela digitalização em caprichar na captura.

Anúncios