/ Ferramentas

Pentaho PDI I - Apresentação e Instalação

Quando se trabalha com análise de dados, principalmente em grandes volumes, cada um têm sua estratégia de abordagem, seja utilizando softwares de planilhas como o Sheets, o Excel ou LibreOffice ou até mesmo utilizando linguagens de programação (Python, R ou Matlab), porém muitas vezes estas abordagens possuem custos elevados, seja em familiaridade com programação/com uma linguagem específica ou a complexidade da ferramenta ou do trabalho manual envolvido.

Se você não conhece o Pentaho Data Integration, esta série de posts é para você!

O Pentaho Data Integration (PDI)

O Pentaho permite ao usuário analista de dados a facilidade na hora de trabalhar com conjuntos de dados. Utilizando uma estratégia de drag n' drop, modulariza as ações sobre os dados, quebrando os processos em partes executáveis.

/Interface do software Pentaho

Um fluxo de ações no PDI é chamado de transformação. Uma transformação requer uma ou mais entradas de dados, uma sequência de ações sobre estes dados e uma ou mais saídas de dados. Os dados de entrada podem ser provenientes de arquivos CSV simples, arquivos do Excel, arquivos JSON, até mesmo uma Tabela específica dentro de uma base de dados. Quanto aos dados de saída, podem ser comandos de manipulação de tabelas em bases de dados (INSERT/DELETE), arquivos JSON, CSV, XML, inserção de dados em tabelas e etc.

Nesta série, os dados de entrada e saída se limitarão à aquivos CSV e xls(Excel).

Quanto às ações possíveis pelo programa sobre os dados, devido a quantidade de ações, apenas as ações utilizadas nesta série de posts serão mais detalhadas nos próximos posts.

Instalando o programa

  • Tenha o Java JDK instalado no seu computador.
  • Faça o download da versão community 8.2 ou 8.3 do Pentaho Data Integration e extraia para sua pasta de preferência.
  • Configure as variáveis de ambiente PENTAHO_JAVA_HOME para o local de instalação do Java JDK e PENTAHO_DI_JAVA_OPTIONS no seu sistema conforme a figura abaixo:

variables

Pronto, o programa já pode ser executado atráves do arquivo Spoon(.bat) dentro da pasta extraída.

spoon


Este foi o primeiro de uma série de posts onde aprenderemos a utilizar o PDI para gerenciar conjutos de dados! Fique ligado no blog AZTech e até a próxima!