This is the P2PU Archive. If you want the current site, go to www.p2pu.org!

Civic Hacking - Mar 2010

Exemplo de extração de tabelas em formato PDF

Ricardo Poppi's picture
Fri, 2010-03-26 18:24
Segue abaixo um tutorial sobre extração de dados em PDF, não considerem como algo muito científico, fui mesmo fazendo por tentativa e erro. Se alguém tiver alguma forma mais fácil de fazer algum desses passos, por favor inclua as alternativas aqui!
 
1) Baixando as tabelas
 
Quero utilizar as tabelas com as estatísticas do eleitorado do distrito federal que estão disponíveis apenas no site do TRE-DF (http://www.tre-df.jus.br/default/dados_elei/estatistica.jsp) e em formato PDF (argh!!!!). Baixei 3 tabelas: 
a) Estatísticas por grau de instrução
b) Estatísticas por idade
c) Estatísticas por sexo
 
 
2) Convertendo o PDF para um formato mais fácil de manipular
 
Lidar com pdf é um saco, dá problema de formatação e tal. O ideal é trasnformar o pdf num formato planilha ou CSV. Utilizei um sisteminha grátis online chamado PDF to Excel (http://www.pdftoexcelonline.com/) que converte o pdf em formato xls e te manda por email. As tabelas que estou lidando são pequenas então consegui converter facilmente. Porém acredito que esse sistema deve ter algum limite de tamanho que não consegui descobrir ainda.
 
Para utilizar o pdftoexcel basta selecionar o arquivo pdf no "step 1" e colocar o email no "step 3", clicando no botão "convert". Em menos de 1 minuto eu já tinha recebido um email com o arquivo xls convetido em anexo.
 
 
3) Preparando os dados para carregar em algum repositório online
 
a) dabbledb.com (http://dabbledb.com/)
 
Para carregar uma tabela no dabbedb basta criar um database e um login, essa opção já aparece na pagina inicial do serviço. Depois, selecionando a opção para "importar dados" ele te apresenta uma tela com 3 alternativas: "copy and paste", "import data" ou "start from scratch". Como eu tinha as tabelas no meu computador, fui na primeira opção.
 
Selecionando as células da tabela no próprio excel é possivel colar no campo do dabbledb e ele reconhece direitinho. Basta ir seguindo as instruções, dando nome para as coisas e sua importação estará concluida. Fui na opção "Show/Hide/Reorder Columns" para decidir as colunas que queria exibir (todas menos o sumário) e também cliquei no botão "Share" onde o sistema permite criar uma página com os dados, para compartilhamento com o mundo. Há também a opção export, na qual o sistema disponibiliza links para arquivos nos mais diversos formatos. Abaixo, estou relaconando o link da página que eu criei com as três tabelas (incluindo uma sidebar que permite alternar entre as três) e também os links das 3 tabelas que carreguei, no formato CSV:
 
 
CSV da tabela por Grau de Instrução: http://ow.ly/1rgvW
CSV da tabela por faixa etária: http://ow.ly/1rgzo
CSV da tabela por sexo: http://ow.ly/1rgAy
 
 
 
Para carregar os dados no manyeyes, eles precisam estar num formato especifico, separado por tabulações. Para fazer isso, abri as planilhas XLS no Openoffice.org e, utilizando a opção "salvar como", exportei no formato CSV (é um dos tipos de arquivo que aparecem na opção de salvar).
 
Importante ficar atento para marcar a caixinha com a opção "Editar as configurações do filtro" que fica no canto inferior esquerdo. Essa opção permitirá selecionar as opções do CSV. Na próxima janela, escolha a codificação adequada (se não souber deixe como está), defina o delimitador de campo como "{Tabulação}" e apague o delimitador de texto (isso mesmo, deixando em branco). Pode dar ok e o arquivo CSV será salvo no seu computador.
 
Agora precisamos colar o resultado do arquivo no manyeyes. Crie uma conta no manyeyes e escolha a opção "upload data set". Abra com um editor de texto (bloco de notas se estiver no windows) o arquivo CSV que foi salvo no passo anterior e copie para a área de transferência (ctrl+C). No campo "Paste the data" do manyeyes, cole o conteúdo da área de transferência (ctrl+V). Logo abaixo você poderá ver se o manyeyes entendeu sua tabela. Isso aparece no seção "Check that we understood". Se estiver bagunçado é porque os dados que você colou não estão seguindo as regras de formato do site, que podem ser lidas aqui: http://manyeyes.alphaworks.ibm.com/manyeyes/page/Data_Format.html
 
Carreguei, dessa forma, as três tabelas do exercício. Tive um problema com o título das tabelas que, na gravação do CSV, ficaram em linhas diferentes, causando problemas na interpretação pelo manyeyes. Arrumei isso manualmente, no próprio editor de texto. As tabelas estão públicas e poder ser vistas aqui:
 
 
O legal do manyeyes é poder criar visualizações em cima dos dados e qualquer um pode fazê-lo já que os datasets são públicos (além dos dados é claro). Crei algumas, só pra brincar:
 

Comments

Importante ficar atento para

Jibran Ayub's picture
Jibran Ayub
Thu, 2010-07-29 10:10

Importante ficar atento para marcar a caixinha com a opção "Editar as configurações do filtro" que fica no canto inferior esquerdo. Essa opção permitirá selecionar as opções do CSV. Na próxima janela, escolha a codificação adequada (se não souber deixe como está), defina o delimitador de campo como "{Tabulação}" e apague o delimitador de texto (isso mesmo, deixando em branco). Pode dar ok e o arquivo CSV será salvo no seu computador.rammy