Quantcast
Channel: Programação - GUJ
Viewing all articles
Browse latest Browse all 33093

Extração de Documentos de sites, Indexação e busca

$
0
0

@johannsen escreveu:

Olá, estou precisando desenvolver um sistema parecido com um motor de busca, para pesquisar por exemplo todo documento que tiver presente a palavra "contratação direta", explicando melhor, estou precisando indexar os arquivos do diário oficial do estado ("http://www.tjma.jus.br/inicio/diario") , todos os diários estão abaixo desta url, por exemplo ("http://www3.tjma.jus.br/diario/diarios/diario_21112016_112642_213.pdf.pdf") vai me retornar um arquivo pdf, então eu teria que acessar todos os diretórios abaixo de "http://www.tjma.jus.br/inicio/diario", ler os arquivos pdf, extrair o texto e criar os índices com o Apache Lucene, a questão é, como posso acesar os arquivos pdfs deste diretório?

Mensagens: 2

Participantes: 2

Ler tópico completo


Viewing all articles
Browse latest Browse all 33093


<script src="https://jsc.adskeeper.com/r/s/rssing.com.1596347.js" async> </script>