Pentaho PDI III - O problema: gerando um conjunto de dados a partir de informações relevantes de outros conjuntos de dados
Dando continuidade à nossa série de posts sobre o Pentaho Data Integration, vamos hoje começar a utilizar o Pentaho na prática, analisando diferentes conjuntos reais de dados e operando sobre estes a fim de criar um único conjunto com informações de valor.
Descrevendo o Problema
A Pawdacity é a principal cadeia de petshops no estado de Wyoming, EUA, e atualmente, com 13 lojas no estado, deseja abrir uma 14º loja para aumentar mais suas vendas. O gerente da empresa quer fazer uma análise de vendas anuais de todas as 13 unidades, e obter uma recomendação junto com os demais acionistas de onde abrir a 14º unidade do petshop. Para tal análise, você foi provido das seguintes informações:
- Vendas anuais da Pawdacity em 2010: 2010-pawdacity-monthly-sales.csv
- Dados de censo demográfico de 2010 no estado de Wyoming: partially-parsed-wy-web-scrape.csv
- Dados sobre a população, área e quantidade de famílias por cidade e condado em Wyoming: wy-demographic-data2.csv
As informações podem ser obtidas clicando aqui!
Conversando com o gerente, vocês chegaram ao acordo de que a análise final deve ser feita em nível de loja, e para cada loja, você deve obter: a cidade onde fica aloja, a população de 2010 para a cidade, o total de vendas da Pawdacity naquele ano, o número de famílias com mebros menores de 18 anos, a área demográfica, a densidade populacional e o número total de famílias para cada cidade.
Conhecendo os Datasets
Com a ferramenta CSV file input, vamos carregar os datasets e visualizá-los. Com uma transformação do Pentaho já aberta, selecione e insira na mesma a ferramenta de CSV e com um duplo clique, nas configurações, selecione o arquivo .csv a ser aberto ( você também pode dar um nome ao passo, o nome padrão é CSV file input X ). Vamos começar com o partially-parsed-wy-web-scrape.csv. Uma vez configurado, feche a configuração clicando em OK.
Apertando a tecla F9, você vai executar o passo de leitura do arquivo, e se este ocorrer com sucesso, aparecerá um sinal em verde, e caso falhe, um sinal em vermelho. Clicando em preview data, na janela de resultados, você pode ver os dados do CSV, que devem se parecer com os dados abaixo.
Fazendo o mesmo para os demais datasets, obtemos os seguintes resultados quando clicamos em preview data.
Se você conseguiu visualizar os datasets conforme as imagens acima, você está pronto para começar a análise dos dados, mas isso fica para o próximo post da série! Caso contrário, tente alterar as configurações de delimitador do arquivo CSV. Em um CSV, os dados são separados em colunas e linhas, e cada coluna pode ser delimitada com vírgula (A,B,C), ponto e vírgula (A;B;C), dois pontos (A:B;C), entre outros.
Este foi o terceiro post da série onde aprenderemos a utilizar o PDI para gerenciar conjutos de dados! Até o próximo post, fique ligado no blog AZTech!
Inscreva-se no { .aztech }
Receba as últimas postagens enviadas diretamente para sua caixa de entrada