pdi – Arruda – Data Consulting https://modelo6.augustomello.com.br Wed, 12 Jul 2023 10:37:14 +0000 pt-BR hourly 1 https://wordpress.org/?v=6.8.3 https://modelo6.augustomello.com.br/wp-content/uploads/2025/08/cropped-Logo-Arruda-Consulting-2025-Picto-1b-32x32.png pdi – Arruda – Data Consulting https://modelo6.augustomello.com.br 32 32 Epoch – como converter para um formato de Data https://modelo6.augustomello.com.br/epoch-como-converter-para-um-formato-de-data/ https://modelo6.augustomello.com.br/epoch-como-converter-para-um-formato-de-data/#respond Wed, 12 Jul 2023 10:37:14 +0000 https://arrudaconsulting.com.br/?p=5376 Olá,

Com o aumento de API´s no nosso dia a dia, surgem alguns casos pontuais que quando trabalhávamos só com arquivos ou bancos de dados não apareciam.

Algumas API retornam os dados de data em formato Epoch:

 

 

 

 

 

 

 

 

 

 

Esse número corresponde a data que estou escrevendo esse artigo, agora iremos fazer essa conversão lá no Pentaho.

Iremos utilizar o generate rows para criar uma coluna com esse número, um detalhe importante é que esse valor está em milisegundos, portanto se dividirmos por 1000, e transformar esse dado em data iremos chegar no resultado que precisamos.

Então com o step add constraint iremos criar uma coluna com o valor fixo de 1000, para finalizarmos o nosso teste basta multiplicar essas duas colunas, utilizando o calculator, e perceba que já informamos no step o tipo de dados: Date e também o formato da data.

 

 

 

 

 

Agora iremos executar a transformação.

 

 

 

 

 

 

 

 

 

E pronto, dessa forma convertemos uma data do formato epoch para um formato datetime, de forma rápida e simples utilizando o Pentaho Data Integration.

Espero que este artigo tenha te ajudado de alguma forma.

Quer aprender mais sobre este e outros tratamentos de dados utilizando o Pentaho Data Integration, no próximo dia 08/08/2023 iremos fazer uma live de 2 horas de conteúdo de ETL aonde vamos fazer diversos tratamentos ao vivo, mais um evento gratuito para a comunidade.

Segue o Link para se inscrever.

Quero Participar

Muito Obrigado e até o próximo artigo!

 

 

 

]]>
https://modelo6.augustomello.com.br/epoch-como-converter-para-um-formato-de-data/feed/ 0
Como criar uma coluna Hash no Pentaho https://modelo6.augustomello.com.br/como-criar-uma-coluna-hash-no-pentaho/ https://modelo6.augustomello.com.br/como-criar-uma-coluna-hash-no-pentaho/#comments Tue, 06 Jun 2023 11:07:37 +0000 https://arrudaconsulting.com.br/?p=5313 Olá,

Tudo bem contigo?

Muito se fala em LGPD, Lei Geral de Proteção dos Dados, mas como implementarmos isso no nosso ETL, ou melhor como proteger dados sensiveis, como Nome, telefone, email.

Uma forma bastante simples de se fazer isso no Pentaho é utilizando o step: Add a checksum.

Iremos começar com duas colunas, o código e o nome.

 

 

 

 

 

Agora a ideia é poder normalizar esses dados, com o intuito de proteger o nome da pessoa.

Utilizando o step mencionado acima iremos escolher o tipo MD5 para criar o nosso hash.

 

 

 

 

 

 

 

 

Após executar o nosso pipeline, temos os nossos dados inciais e a nova coluna que foi criada pelo step.

 

 

 

 

 

 

 

 

Agora para finalizar adicionamos um Select Values para removermos a coluna nome, e assim iremos ter o nome e a coluna hash no etl.

 

 

 

 

 

 

 

 

 

 

 

 

Muito Obrigado.

E até o próximo artigo.

]]>
https://modelo6.augustomello.com.br/como-criar-uma-coluna-hash-no-pentaho/feed/ 3
Erro ao gravar dados no Google Storage utilizando o Pentaho – Solução https://modelo6.augustomello.com.br/erro-ao-gravar-dados-no-google-storage-utilizando-o-pentaho-server/ https://modelo6.augustomello.com.br/erro-ao-gravar-dados-no-google-storage-utilizando-o-pentaho-server/#respond Sat, 11 Feb 2023 19:48:22 +0000 https://arrudaconsulting.com.br/?p=5113 Olá,

Tudo bem contigo?

Recentemente um dos nossos alunos estava com dificuldades para gravar dados no Google Storage, para poder criar o seu 1º Data lake, utilizando o Pentaho Data Integration, funcionava normal, porém na hora de entregar o projeto.

Criar o Servidor na Google Cloud, utilizando o Compute Engine e instalar o Pentaho Server, tudo ok.

Não sabe criar um servidor na nuvem e instalar o Pentaho Server? Não tem problema temos uma live aonde fizemos esse processo, só clicar no link abaixo:

Porém na hora de executar o ETL, dava erro de permissão, segue o erro abaixo:

 

 

 

 

 

 

 

Esse erro é porque a nossa chave json, do Compute Engine não tem algumas permissões do serviço Google Storage, é necessário Ir até o serviço IAM e clicar em papéis.

 

 

 

 

 

 

 

 

 

Iremos criar um papel,  que vamos chamar de Storage, e depois iremos clicar em Adicionar permissões.

 

 

 

 

 

 

Iremos adicionar as seguintes permissões:

composer.dags.execute
composer.dags.get
composer.dags.list
composer.environments.create
composer.environments.delete
composer.environments.get
composer.environments.list
composer.environments.update
composer.imageversions.list
composer.operations.delete
composer.operations.get
composer.operations.list
serviceusage.quotas.get
serviceusage.services.get
serviceusage.services.list
storage.buckets.create
storage.buckets.createTagBinding
storage.buckets.delete
storage.buckets.deleteTagBinding
storage.buckets.get
storage.buckets.getIamPolicy
storage.buckets.list
storage.buckets.listEffectiveTags
storage.buckets.listTagBindings
storage.buckets.setIamPolicy
storagetransfer.projects.getServiceAccount

 

Agora basta editarmos a conta que a nossa chave foi criada e adicionar o papel Storage na conta, dessa forma estaremos adicionando as permissões acima na nossa conta.

E para finalizar se voltar no IAM irá ter a conta do Compute Engine, será necessário criar uma chave nessa conta, e atualizar a tua variável de ambiente:

Basta utilizar o comando para atualizar a variável de ambiente para essa nova chave, e reiniciar o serviço do Pentaho Server e executar a transformação novamente!

 

 

 

 

 

 

E agora conseguimos executar o nosso pipeline com sucesso, gerando o arquivo no Google Storage.

 

 

 

 

 

 

 

 

 

Ao verificar o log, vemos que temos os dados no log do Pentaho Server.

Arquivo gerado com sucesso no Google Storage.

 

 

 

 

Esse artigo te ajudou? Comente aqui e compartilha, pois foram horas de tentativa e erro para chegar nessa solução.

Agora só entregar o seu projeto com essa baita solução Pentaho + GCP.

Muito Obrigado e até o próximo artigo!

 

]]>
https://modelo6.augustomello.com.br/erro-ao-gravar-dados-no-google-storage-utilizando-o-pentaho-server/feed/ 0
1º dia do Treinamento: Pentarruda Google Cloud https://modelo6.augustomello.com.br/1o-dia-do-treinamento-pentarruda-google-cloud/ https://modelo6.augustomello.com.br/1o-dia-do-treinamento-pentarruda-google-cloud/#respond Sun, 12 Sep 2021 11:43:56 +0000 https://arrudaconsulting.com.br/?p=4347 1º dia do Treinamento: Pentarruda Google Cloud

Olá!

Tudo bem contigo?

Nesse sábado(11/09/2021) tivemos o 1º dia do nosso mais novo treinamento: Pentarruda Google Cloud!

Que dia íncrivel, primeiro pelas pessoas que estão nesse treinamentos, muitas referências na área de dados temos especialistas em diversas Tecnologias, ETL, Power BI, Qlik, Tableau, Banco de dados, RPA e por ai vai, praticamente uma Tropa de Elite dos dados, e poderia ser treinamento de qualquer um de vocês e eu ter a confiança de vocês como Instrutor me deixou bem feliz!

Bom nesse curso o foco é os serviços da Google Cloud e como podemos utilizar o Pentaho Data Integration para integrar dados na nuvem, e poder criar um Data lake em utilizar uma linha de código.

Nesse primeiro dia abordamos os seguntes tópicos e sempre no formato hand-ons!

  • O que é Pentaho? O que é Google Cloud Plataform?
  • Instalação do ambiente do treinamento.
  • Criação da conta na GCP.
  • Utilizamos o IAM para criação do projetos, permissões.
  • Criação do bucket no Google Cloud Storage.
  • Integrando o Pentaho Data Integration com o Cloud Storage.
  • Integrando os dados do storage com o Big Query
  • Explorando os dados do big query no Google Data Studio(Dataviz)

E dessa forma criamos toda a estrutura do zero na Cloud.

Semana que vem tem mais!

E gostaria de agradecer aos mais de 30 alunos já na 1ª turma do nosso treinamento!

Muito obrigado a todos vocês!

 

 

 

 

]]>
https://modelo6.augustomello.com.br/1o-dia-do-treinamento-pentarruda-google-cloud/feed/ 0
Como Integrar o Pentaho com o Big Query! https://modelo6.augustomello.com.br/como-integrar-o-pentaho-com-o-big-query/ https://modelo6.augustomello.com.br/como-integrar-o-pentaho-com-o-big-query/#comments Mon, 06 Sep 2021 11:14:26 +0000 https://arrudaconsulting.com.br/?p=4340 Como Integrar o Pentaho com o Big Query!

Antes de mais nada Talvez você já deve ter ouvido falar do Big Query da Google? certo? mas você saberia integrar o pentaho com o Big Query?

Big Query é um dos melhores produtos que já vimos na Cloud.

Grandes Volumes de dados com velocidade

Bem como Um banco de dados muito utilizado para ler grandes volumes de dados, é conhecido por ter uma velocidade que chama atenção de todos que trabalham com dados, é capaz de ler milhões de dados em segundos.

Além disso assim como acontece na AWS conseguimos integrar o Pentaho com a cloud da Google.

Segue um vídeo abaixo mostrando na prática Como Integrar o Pentaho com o Big Query!

 

Integração e Automatização

Assim quando executa o Pentaho, a tabela do Big Query atualiza também, gerando uma integração e uma dinâmica essencial para projetos de Data lake bem como Data Wharehouse.

Ainda mais que com o Big Query você pode consultar dados do seu Data lake e do seu Data Wharehouse e se quiser relacionar dados dos dois mundos também é possível!!!

Cursos de Pentaho com Google Cloud e AWS:

Se você quiser aprender mais sobre essa integração do Pentaho com Google Cloud acesse o Semana PentarrudaCloud

Onde ensinando em 3 dias tudo sobre Google Cloud platform e aws.

Obrigado e uma boa semana!

 

]]>
https://modelo6.augustomello.com.br/como-integrar-o-pentaho-com-o-big-query/feed/ 1
Como Transformar Colunas em linhas com o Pentaho step Row Normaliser https://modelo6.augustomello.com.br/tranformando-colunas-em-linhas-com-o-step-row-normaliser/ https://modelo6.augustomello.com.br/tranformando-colunas-em-linhas-com-o-step-row-normaliser/#respond Tue, 27 Jul 2021 10:16:53 +0000 https://arrudaconsulting.com.br/?p=4331 Como Transformar Colunas em linha com o Pentaho step Row Normaliser

Olá, tudo bem com você?

Nesse artigo irei mostrar como Transformar Colunas em linha com o Pentaho step Row Normaliser

Iremos começar com o Datagrid para criar alguns dados pra nós:

Antes de tentarmos transformar as colunas em linhas temos que ordenar os dados utilizando o sort rows, assim como fazemos quando temos que fazer join, group by e por ai vai.

E agora com os dados ordenados, iremos utilizar o step Row Normalizer:

As colunas de data a gente vai informar na coluna fieldname e também na Type.

E iremos criar uma coluna chamada valor.

Dessa forma teremos uma coluna Data com o seu respectivo valor.

Preenchendo dessa forma, iremos ver a mágica sendo feita no Pentaho.

E assim temos a nossa transformação feita com 3 steps.

E é dessa forma que transformamos colunas em linhas no Pentaho Data Integration.

Quer aprender a tratar os seus dados com Pentaho?

Então aproveite o nosso próximo evento, 100% gratuito.

https://pdiexcel.arrudaconsulting.com.br/

Muito Obrigado e até o próximo artigo!!

]]>
https://modelo6.augustomello.com.br/tranformando-colunas-em-linhas-com-o-step-row-normaliser/feed/ 0
Como Tratar dados com o Split field to rows https://modelo6.augustomello.com.br/tratando-dados-com-o-split/ https://modelo6.augustomello.com.br/tratando-dados-com-o-split/#respond Mon, 21 Jun 2021 14:08:07 +0000 https://arrudaconsulting.com.br/?p=4323 Como Tratar dados com o Split field to rows

Olá tudo bem?

Em primeiro lugar Hoje iremos compartilhar com você mais uma maneira rápida e eficaz de utilizar o pentaho data integration para tratar os nossos dados, utilizando o step: Split field to rows.

Começando com o Datagrid para gerar os nossos dados:

Nome  Estado    email
João      SP          ra@gmail.com
Maria   RJ          lar@gmail.com

A nossa ideia é pode extrair todas as informações que está antes do @ do email.

Para isso iremos fazer um split na coluna de email.

 

Perceba como é simples utilizar o step, só temos que informar os seguintes parâmetros:

  • Coluna que queremos fazer o split.
  • Demilitador que no nosso caso é o @
  • Nome da nova coluna.

Então o split criou dois valores para cada linha, o antes do @ e o depois.

Agora como só queremos o valor que esta antes do @, iremos utilizar o filter rows para fazer esse tipo de filtro.

Iremos utilizar o Contains que é semelhante ao LIKE do SQL, e utilizamos o NOT pois queremos filtrar os dados que não tem o .com na coluna teste.

E assim temos a coluna teste somente com os valores antes do @.

Até o Próximo Artigo!

Obrigado.

]]>
https://modelo6.augustomello.com.br/tratando-dados-com-o-split/feed/ 0
Como utilizar o Value Mapper para renomear valores https://modelo6.augustomello.com.br/utilizando-o-value-mapper-para-renomear-valores/ https://modelo6.augustomello.com.br/utilizando-o-value-mapper-para-renomear-valores/#respond Mon, 21 Jun 2021 11:58:32 +0000 https://arrudaconsulting.com.br/?p=4314 Como utilizar o Value Mapper para renomear valores

Olá, tudo bem com você?

A parte de preparar os dados é uma das etapas que mais levamos tempo em projetos de BI ou Big Data.

E se você está acostumado a utilizar IF, Swichs e replaces apresento a vocês uma maneira mais simples e rápida para fazer este tipo de tratamento e Como utilizar o Value Mapper para renomear valores

Neste exemplo iremos utilizar o datagrid para gerar os nossos dados e o step value mapper para tratar o nosso dado.

Então temos as colunas: Nome e Estado.

Aonde o João vivem em SP.

E a Maria vivem em RJ.

Vamos supor que o cliente solicitou que gostaria de ver o nome completo do estado e não somente abreviado.

Então SP irá virar SÃO PAULO e RJ RIO DE JANEIRO.

Como não estamos alterando o tipo de dados, podemos fazer isso na mesma coluna, agora se fosse uma alteração de um numero inteiro para um texto ai teríamos que criar uma coluna para receber esse valor, nesse exemplo não é preciso.

Então podemos deixar o campo Target field name vazio.

E a alteração esta feita:

SP -> SÃO PAULO

RJ -> RIO DE JANEIRO

E após executar vemos que o step foi utilizado com sucesso!

Por fim é dessa forma que utilizamos o Value Mapper para renomear valores

Até o próximo artigo!

Muito Obrigado.

]]>
https://modelo6.augustomello.com.br/utilizando-o-value-mapper-para-renomear-valores/feed/ 0
Como ler vários arquivos de uma só vez? https://modelo6.augustomello.com.br/como-ler-varios-arquivos-de-um-diretorio-de-uma-so-vez/ https://modelo6.augustomello.com.br/como-ler-varios-arquivos-de-um-diretorio-de-uma-so-vez/#comments Fri, 30 Apr 2021 10:13:08 +0000 https://arrudaconsulting.com.br/?p=4297 Como ler vários arquivos de uma só vez

Olá tudo bem com você?

Você já teve que fazer alguma integração de dados de arquivos separados por data, empresa, categoria?

Muito provável que sim e as vezes deve ter utilizado um step para cada arquivo?

Então se você já fez ou ainda faz esse artigo irá te ajudar a como ler vários arquivos de uma só vez.

Antes de tudo No Pentaho quando trabalhamos com leitura de arquivos temos a opção de trabalhar com regex.

Pois bem…

Temos uma pasta Arquivos com dois arquivos csv.

Em vez de selecionar um arquivo em cada text file input, iremos informar somente a pasta.

 

No campo regular Experession(Regex) iremos preencher com o valor: .*csve depois clicar em add.

O que isso significa, que o step irá ler todos os arquivos do diretório informado acima com o formato .csv

Hoje pode ter 2 arquivos se amanhá tiver 4 o Pentaho irá ler todos os arquivos por conta da expressão regular.

Para saber se o seu processo funcionou basta clicar em show filenames:

Essa é a melhor parte o seu processo irá ficar dinâmico, mas para o seu processo funcionar os arquivos devem ter as mesmas colunas, ok?

É uma maneira simples mas que evita muito re-trabalho principalmente para quem esta começando com o Pentaho.

Material de Aprofundamento:

Se você quiser aprender tudo sobre Pentaho, como fazer um ETL bem feito e como AUTOMATIZAR seu processo de BI com desempenho altamente robusto, performático e satisfatório então conheça nosso Curso Completo de Pentaho Clicando Aqui.

Você ainda ganha acesso a nossa comunidade de alunos Pentarruda onde ajudamos uns aos outros compartilhando muita informação e resolvendo dúvidas relacionado a Engenharia de Dados e Business Intelligence!

Até o próximo artigo!

 

]]>
https://modelo6.augustomello.com.br/como-ler-varios-arquivos-de-um-diretorio-de-uma-so-vez/feed/ 1