Página 1 de 1
Importar dados PDF
Enviado: 26 Nov 2011 22:54
por carlos_dornelas
Amigos, alguém sabe se é possível importar dados de um arquivo PDF diretamente pelo harbour?
Antonio Carlos
Curitiba PR
Importar dados PDF
Enviado: 27 Nov 2011 11:50
por Pablo César
Teve uma vez que eu tive que fazer um módulo para extrair dados de arquivos pdf para confirmar o envio de dados de um sistema. Não é acoisa mais elegante nem segura de se fazer mas eu tive que apelar a transformar o arquivo pdf em arquivo texto e aí foi moleza. O problema foi quando na outra ponta decidiram criar o pdf em outra versão e não sei ao certo se foi por causa disso ou porque o pdf estaria protegido. Daí não pudemos mais continuar fazendo a conversão. O aplicativo que converte pdf para texto, coloquei em anexo.Executando na linha de comando você veráa sintaxe, é muito simples.
Importar dados PDF
Enviado: 27 Nov 2011 15:12
por carlos_dornelas
Pablo, eu preciso encontrar uma forma de fazer a extração de dados direto com o harbour que poderia ser a conversão do pdf para texto. Não sei se você se equivocou, mas acho que o arquivo que você anexou é para fazer o contrário, ou seja, de txt para pdf, não?
Antonio Carlos
Importar dados PDF
Enviado: 27 Nov 2011 19:48
por Pablo César
Não sei se você se equivocou, mas acho que o arquivo que você anexou é para fazer o contrário, ou seja, de txt para pdf, não?
ihhh tem razão, desculpe equivoquei-me. Já mudei o arquivo na mensagem anterior.
Seria interessante achar algo que possa ser usado em Harbour. Pelo que entendí em outro fórum C++ que utiliza-se através da ZLIB para localizar as seções entre "stream" e "endstream" onde supostamente estariam cada string. Só não sei se os pdfs de atuais versões mantém essa característica, como eu disse na mensagem anterior que em certos pdf conseguia mas depois não. Se interessar saber (mesmo fugindo da linguagem mas que talvez possa servir de referência paraadaptar em C e poder usar em Harbour) fica aqui como referência:
http://www.codeproject.com/kb/cpp/ExtractPDFText.aspx
http://www.codeproject.com/KB/string/pdf2text.aspx
http://forums.adobe.com/message/2603426 (em VB, fórum do ADOBE)
Em HMG, tendo instalado o Adobe, fica fácil ler o PDF, mas fica em objeto desta forma:
Win1.Test.Object:src := curdrive() + ':\' + curdir() + '\' + 'readme.pdf'
Pesquisei em Minigui e não achei. Outra função que parece extrair texto em C++ é PDFTextStripper() agora se existe algo para Harbour, eu desconheço até o momento.
Importar dados PDF
Enviado: 28 Nov 2011 23:43
por Pablo César
Só para complementar informação. Adobe Developer FAQ menciona funções como TextExtraction:
Através da API, você pode extrair o texto ASCII de um arquivo PDF usando o Acrobat e um plug-in desenvolvido em C ou C + +. A funções TextExtraction e WordFinder podem ser usados como pontos de partida para o seu próprio plug-in. Métodos AVConversion também pode ser usado para salvar PDF como texto ou rich text. Além disso, a amostra SDKTextExtraction no primeiro nível do diretório SaveAsXML fornece um bom ponto de partida para a criação de tabelas mais ricos de extração. Para mais informações, consulte o Guia de Amostras Para SDK.
Importar dados PDF
Enviado: 29 Nov 2011 21:41
por carlos_dornelas
Obrigado Pablo pelas suas dicas. Infelizmente não entendo nada de C, então acho que ainda vou ter que continuar utilizando o método de copiar do PDF e colar no TXT.
[]s
Antonio Carlos
Importar dados PDF
Enviado: 29 Nov 2011 21:47
por Pablo César
C não é meu forte, mas enquanto não é superado as funções em C, por quê não tenta com o utilitário externo para transformar em arquivo texto de dentro da sua aplicação Harbour (não é muito canônico... mas funcionaria).
Também estive vendo que se abrisse o arquivo em baixo nível em modo binário, você poderia pesquisar pelas seções "stream" e "endstream" que contém o texto do pdf. O problema que está compactado por alguma função do ZLIB e eu não descobrí qual seria. Pois o que conheço descompacta arquivos e não variáveis. Talvez algum colega leia o tópico e possa contribuir com algo mais. Mas eu tentaria o utilizário PDF2TXT.EXE que anexei na minha primeira mensagem.
Importar dados PDF
Enviado: 06 Mai 2021 14:29
por Mario Mesquita
Boa tarde, pessoal.
Atualmente, temos algo que possa ler e extrair dados de um PDF? Tentei o Pdf2Txt, mas não sei se o PDF por estar no modo paisagem, deu ruim. Veio tudo desconfigurado ao invés das linha e colunas de modo aproveitável.
Se tiverem alguma dica, desde já agradeço.
Saudações,
Mario.
Importar dados PDF
Enviado: 09 Mai 2021 11:27
por Kapiaba
Talvez:
https://www.pdflabs.com/tools/pdftk-the-pdf-toolkit/
Baixe o manual. Não tenho certeza se vai funcionar. É possível chama-lo via código.
Abs.
Importar dados PDF
Enviado: 09 Mai 2021 20:32
por carlos_dornelas
Eu utilizei com sucesso o pdftotext.exe que nem lembro mais de onde baixei... renomeie o anexo para .exe
Antonio Carlos
Importar dados PDF
Enviado: 10 Mai 2021 09:12
por Kapiaba
Bom dia Carlos, formato do arquivo .ZIP, está DANIFICADO. Abs.
Importar dados PDF
Enviado: 10 Mai 2021 09:22
por Itamar M. Lins Jr.
Olá!
formato do arquivo .ZIP, está DANIFICADO.
É para:
. renomeie o anexo para .exe
Fez a leitura correta ?
Saudações,
Itamar M. Lins Jr.
Importar dados PDF
Enviado: 10 Mai 2021 10:15
por Mario Mesquita
Bom dia a todos.
Pessoal, pra agilizar, eu usei o site da Adobe e converti pra Excel. Ficou 90%, mais por conta do relatório em si, que não foi todo pensado pra ser como uma planilha.
Mas se houvesse algo que pudesse ser feito no Harbour, seria bem melhor. Mas se tiver um .EXE externo que converta pra algo que possa ser lido, tb não de todo ruim.
Sds,
Mario.