Pentaho PDI III - O problema: gerando um conjunto de dados a partir de informações relevantes de outros conjuntos de dados

Dando continuidade à nossa série de posts sobre o Pentaho Data Integration, vamos hoje começar a utilizar o Pentaho na prática, analisando diferentes conjuntos reais de dados e operando sobre estes a fim de criar um único conjunto com informações de valor.

Descrevendo o Problema

A Pawdacity é a principal cadeia de petshops no estado de Wyoming, EUA, e atualmente, com 13 lojas no estado, deseja abrir uma 14º loja para aumentar mais suas vendas. O gerente da empresa quer fazer uma análise de vendas anuais de todas as 13 unidades, e obter uma recomendação junto com os demais acionistas de onde abrir a 14º unidade do petshop. Para tal análise, você foi provido das seguintes informações:

  • Vendas anuais da Pawdacity em 2010: 2010-pawdacity-monthly-sales.csv
  • Dados de censo demográfico de 2010 no estado de Wyoming: partially-parsed-wy-web-scrape.csv
  • Dados sobre a população, área e quantidade de famílias por cidade e condado em Wyoming: wy-demographic-data2.csv

As informações podem ser obtidas clicando aqui!

Conversando com o gerente, vocês chegaram ao acordo de que a análise final deve ser feita em nível de loja, e para cada loja, você deve obter: a cidade onde fica aloja, a população de 2010 para a cidade, o total de vendas da Pawdacity naquele ano, o número de famílias com mebros menores de 18 anos, a área demográfica, a densidade populacional e o número total de famílias para cada cidade.

Conhecendo os Datasets

Com a ferramenta CSV file input, vamos carregar os datasets e visualizá-los. Com uma transformação do Pentaho já aberta, selecione e insira na mesma a ferramenta de CSV e com um duplo clique, nas configurações, selecione o arquivo .csv a ser aberto ( você também pode dar um nome ao passo, o nome padrão é CSV file input X ). Vamos começar com o partially-parsed-wy-web-scrape.csv. Uma vez configurado, feche a configuração clicando em OK.

Apertando a tecla F9, você vai executar o passo de leitura do arquivo, e se este ocorrer com sucesso, aparecerá um sinal em verde, e caso falhe, um sinal em vermelho. Clicando em preview data, na janela de resultados, você pode ver os dados do CSV, que devem se parecer com os dados abaixo.

pawda

Fazendo o mesmo para os demais datasets, obtemos os seguintes resultados quando clicamos em preview data.

web

wy

Se você conseguiu visualizar os datasets conforme as imagens acima, você está pronto para começar a análise dos dados, mas isso fica para o próximo post da série! Caso contrário, tente alterar as configurações de delimitador do arquivo CSV. Em um CSV, os dados são separados em colunas e linhas, e cada coluna pode ser delimitada com vírgula (A,B,C), ponto e vírgula (A;B;C), dois pontos (A:B;C), entre outros.


Este foi o terceiro post da série onde aprenderemos a utilizar o PDI para gerenciar conjutos de dados! Até o próximo post, fique ligado no blog AZTech!