Mudamos para www.tradutorprofissional.com

segunda-feira, 8 de janeiro de 2007

PDF (2)

Continuando a novela do pdf, vamos conversar um pouco sobre o que se chama despedefação, quer dizer, o trabalho inglório de transformar um arquivo pdf em arquivo word.

Caso 1: arquivo pdf de texto, sem proteção por senha

Se você tiver sorte, é só abrir o arquivo no Reader, depois

  • View > Page Layout > Continuous
  • Select > All
  • Edit > Copy
  • Abra um documento novo em Word e cole o texto (Ctrl V)

Se o texto aparecer e estiver legível, ótimo: você pode passar à segunda fase. Caso não apareça, as soluções (nenhuma muito boa) estão mais abaixo.

A segunda fase é baixar o +Tools do site do Wordfast. É grátis e não tem nada que ver com o WFast propriamente dito. Instale, abra o documento que você criou com o texto copiado do AcrobatReader e

  • Tools > Cnv > Recreate paragraphs in current document.

O +Tools dá uma arrumada bonita no documento, embora nem sempre resolva tudo. É comum sobrar algo para ajeitar a unha. Pdf é uma desgraça.

Caso 2: arquivo pdf protegido por senha

Se o arquivo estiver protegido por senha, o Reader não vai permitir seleção. Nesse caso, o que resolve é um aplicativo da Elcomsoft, que você compra via Internet. Rápido e fácil de usar. Um dos meus melhores investimentos. Desprotege o arquivo em menos de um minuto. Aí, normalmente, você fica com um arquivo simples, que se enquadra no Caso 1.

Caso 3: arquivo em forma de imagem

Alguns arquivos, embora somente contenham texto, foram gravados como imagem. Por que alguém faz uma coisa dessas, é coisa difícil de explicar. O fato é que se o arquivo está como imagem, você pode copiar to Reader e colar no Word, mas só vai sair lixo. Nesse caso, a única saída é reconhecimento ótico, quer dizer, digitalização do texto. Ao contrário do que muitos pensam, não é necessário um scanner para isso: os programas atuais "enganam" o computador, fazendo a digitalização diretamente a partir do pdf. Os melhores são o OmniPage e o FineReader, da Abby, ambos facilmente encontráveis mediante consulta ao Google. Aprenda a ler direto do pdf, em vez de imprimir e passar pelo scanner. A qualidade do resultado varia de magnífica a muito má, dependendo de mil fatores que não posso discutir aqui.

Caso 4: arquivo protegido e em forma de imagem

Às vezes, o arquivo vem em forma de imagem e ainda protegido por senha, caso em que é necessário primeiro desproteger e depois digitalizar.

Até a próxima!

No próximo artigo sobre pdf, provavelmente depois de amanhã, vamos falar da história de entregar no pdf. Por hoje é só. Amanhã, creio eu, voltamos à discussão dos trabalhos para o exterior. Espero que estas informações sejam úteis e que você visite o blog amanhã de novo.

2 comentários:

Ewandro Magalhães Jr. disse...

Danilo,
Você já deve estar se cansando dos meus pitacos. Mais um: tem um programa sensacional, chamado Solid Converter PDF, que faz as conversões de PDF para Word mantendo todo o leiaute original do documento (gráficos, tabelas, etc.). Eu usei no tal trabalho para os japoneses, para reaproveitar centenas de tabelas, que voltam a ser editáveis. Até os rodapés e cabeçalhos o bicho arruma. Testei e funcionou à perfeição. Custa barato e vale muitas vezes o investimento. Pronto. Agora vou ver se passo um tempo calado, para não te amolar demais.

José Henrique Lamensdorf disse...

Dois comentários:

Alguns arquivos, embora somente contenham texto, foram gravados como imagem. Por que alguém faz uma coisa dessas, é coisa difícil de explicar.

É fácil: o sujeito recebeu o original em papel. O caso mais comum é entre advogados. Todos os processos no judiciário circulam em papel. Ou você acha que um advogado irá pedir ao colega da parte adversária se tem isso em arquivo eletrônico?

A qualidade do resultado varia de magnífica a muito má, dependendo de mil fatores que não posso discutir aqui.

Só 999 fatores. O principal deles é escanear em baixa resolução. A secretária do advogado fica msravilhada no dia em que descobre um jeito de o scanner funcionar "muito mais rápido". Em lugar de escanear a 300 dpi/ppp (dots per inch = pontos por polegada), ela o faz em 150 dpi. O programa de OCR erra tanto (Cadê meus óculos?) que fica mais fácil imprimir e traduzir do papel.

A Hewlett Packard pode ser ótima em hardware, mas o software deles é terrível, com destaque para o dos scanners. Virou, mexeu, o software do scanner da HP muda sozinho para o seu padrão de 150 dpi.

Um programa de OCR começa a funcionar bem a partir de 200 dpi (para mais).