/ Ferramentas

Pentaho PDI II - Ferramentas utilizadas

Continuando nossa série de posts sobre o Pentaho PDI, vamos apresentar as ferramentas de manipulação do software que serão utilizadas por você durante a série. Como dito anteriormente, as ferramentas do pentaho podem ser divididas em 3 tipos, entradas de dados, manipulação e saída de dados.

Para esta série de posts, as ferramentas a serem utilizadas serão, subdivididas por grupos, as seguintes:

  • Entrada de dados: CSV file input;
  • Manipulação: Sort Rows, Split Fields, Replace in String, Calculator, Select Values, Group By, Merge Join, Formula;
  • Saída de dados: Microsoft Excel Output;

Como podemos ver, o nome de cada ferramenta pode ser bem intuitivo em relação à sua funcionalidade.

Começando uma transformação

janela

Vamos criar uma nova transformação clicando em File > Novo > Transformação ou através do atalho CTRL + N. Na aba à esquerda, com nome de Design, é possivel ver os grupos de transformações possíveis com os dados separados por funções. Vamos então à um detalhamento de cada ferramenta utilizada.

tools

Cada ferramenta pode ser configurada ao clicar duas vezes sobre ela.

CSV FILE INPUT

Permite carregar um arquivo de entrada, ajustar o delimitador do CSV (ponto, vírgula, ponto e vírgula) e clicando em preview pode se saber se o passo está sendo executado corretamente, como um teste.

SORT ROWS

Selecionar uma determinada coluna de um conjunto de dados e ordenar de maneira crescente ou decrescente os dados.

SPLIT FIELDS

Assim como o split das linguagens de progrmação, realiza a quebra de uma string em dois ou mais campos de acordo com o separador designado. Age sobre todos os dados de uma coluna, criando novas colunas adjacentes.

REPLACE IN STRING

Age conforme expressões regulares em strings, substituindo pedaços de strings por outros pedaços, letras.

CALCULATOR

Permite conversões de tipos de dados e operações envolvendo mais de uma coluna, sempre concatenando uma nova coluna de resultado com as demais.

SELECT VALUES

Gera um novo conjunto de dados selecionando apenas as colunas partinentes à análise.

GROUP BY

Agrupa linhas com um determinado campo duplicado em uma determinada coluna, realizando ações como cálculo de média, soma total, valor mínimo ou valor máximo nos demais campos. (Necessita dos dados estarem ordenados primeiramente).

MERGE JOIN

Agrupa dois conjuntos de dados diferentes que possuam uma coluna com a mesma característica (quantidade e tipo de dados). Por exemplo: um conjunto de registros A possui uma coluna X com entradas D1 D2 D3 e um conjunto de registros B possui uma coluna Y com entradas D1 D2 D3. Ambos podem ser mergeados de maneira que as demais colunas de cada conjunto formem um único conjunto.

FORMULA

Permite realizar cálculos entre colunas como um editor de planilhas como o Excel ou o LibreOffice e colocar os resultados em novas colunas agregadas.

MICROSOFT EXCEL OUTPUT

Escreve o conjunto de dados em um arquivo do formato Microsoft Excel para ser utilizado por outras aplicações.


Este foi o segundo post da série onde aprenderemos a utilizar o PDI para gerenciar conjutos de dados! Fique ligado no blog AZTech para o próximo post!