Pentaho PDI III - O problema: gerando um conjunto de dados a partir de informações relevantes de outros conjuntos de dados

Dando continuidade à nossa série de posts sobre o Pentaho Data Integration, vamos hoje começar a utilizar o Pentaho na prática, analisando diferentes conjuntos reais de dados e operando sobre estes a fim de criar um único conjunto com informações de valor.

Descrevendo o Problema

A Pawdacity é a principal cadeia de petshops no estado de Wyoming, EUA, e atualmente, com 13 lojas no estado, deseja abrir uma 14º loja para aumentar mais suas vendas. O gerente da empresa quer fazer uma análise de vendas anuais de todas as 13 unidades, e obter uma recomendação junto com os demais acionistas de onde abrir a 14º unidade do petshop. Para tal análise, você foi provido das seguintes informações:

  • Vendas anuais da Pawdacity em 2010: 2010-pawdacity-monthly-sales.csv
  • Dados de censo demográfico de 2010 no estado de Wyoming: partially-parsed-wy-web-scrape.csv
  • Dados sobre a população, área e quantidade de famílias por cidade e condado em Wyoming: wy-demographic-data2.csv

As informações podem ser obtidas clicando aqui!

Conversando com o gerente, vocês chegaram ao acordo de que a análise final deve ser feita em nível de loja, e para cada loja, você deve obter: a cidade onde fica aloja, a população de 2010 para a cidade, o total de vendas da Pawdacity naquele ano, o número de famílias com mebros menores de 18 anos, a área demográfica, a densidade populacional e o número total de famílias para cada cidade.

Conhecendo os Datasets

Com a ferramenta CSV file input, vamos carregar os datasets e visualizá-los. Com uma transformação do Pentaho já aberta, selecione e insira na mesma a ferramenta de CSV e com um duplo clique, nas configurações, selecione o arquivo .csv a ser aberto ( você também pode dar um nome ao passo, o nome padrão é CSV file input X ). Vamos começar com o partially-parsed-wy-web-scrape.csv. Uma vez configurado, feche a configuração clicando em OK.

Apertando a tecla F9, você vai executar o passo de leitura do arquivo, e se este ocorrer com sucesso, aparecerá um sinal em verde, e caso falhe, um sinal em vermelho. Clicando em preview data, na janela de resultados, você pode ver os dados do CSV, que devem se parecer com os dados abaixo.

Fazendo o mesmo para os demais datasets, obtemos os seguintes resultados quando clicamos em preview data.

Se você conseguiu visualizar os datasets conforme as imagens acima, você está pronto para começar a análise dos dados, mas isso fica para o próximo post da série! Caso contrário, tente alterar as configurações de delimitador do arquivo CSV. Em um CSV, os dados são separados em colunas e linhas, e cada coluna pode ser delimitada com vírgula (A,B,C), ponto e vírgula (A;B;C), dois pontos (A:B;C), entre outros.


Este foi o terceiro post da série onde aprenderemos a utilizar o PDI para gerenciar conjutos de dados! Até o próximo post, fique ligado no blog AZTech!