Skip to content

O projeto consiste em desenvolver uma solução para a migração de dados de uma fonte com muitos arquivos para uma base de dados hospedada em ambiente Cloud.

Notifications You must be signed in to change notification settings

luccayz/dataengineer_project_002

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

7 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Data Engineer Project - Data Migration Cloud

Colocando alguns estudos em prática com um pequeno projeto de Engenharia de Dados.

Diagrama Abstrato do Projeto

Diagrama

Análise Geral

Este projeto é dividido em 6 fases sequenciais.

Na primeira etapa, serão obtidos dados em formato .csv.

Em seguida, na segunda etapa, um SGBD será instalado no computador pessoal.

Na terceira etapa, será criada uma base de dados no SGBD.

Na quarta etapa, os dados do arquivo .csv serão inseridos na base de dados, sem o uso de Python.

Na quinta etapa, será criada uma base de dados no Azure SQL Database.

Por fim, na sexta etapa, uma ferramenta será utilizada para migrar os dados do SGBD do computador pessoal para o Azure Database.

O objetivo final é ter os dados armazenados e acessíveis na nuvem, no Azure SQL Database.

1º Etapa

Obtenha alguns dados em formato .csv.

Utilizei o site Kaggle para obter o Dataset. O Kaggle é uma plataforma online de ciência de dados que oferece uma comunidade global de cientistas de dados e aprendizado de máquina, bem como conjuntos de dados, competições, cursos e recursos para ajudar os profissionais a aprimorar suas habilidades em ciência de dados.

  1. Arquivo .csv baixado manualmente. FinalCSV

2º Etapa

Instale um SGBD no teu computador pessoal.

  1. SGBD (Sistema Gerenciador de Banco de Dados) Instalado. Utilizei o SSMS (SQL Server Management Studio).

O SQL Server Management Studio é um software lançado pela primeira vez com o Microsoft SQL Server 2005 que é usado para configurar, gerenciar e administrar todos os componentes do Microsoft SQL Server.

SSMS

3º Etapa

Crie uma base de dados no SGDB desejado.

  1. Query para criar a base de dados.

QueryDBSSMS

4º Etapa

Faça a ingestão dos dados do arquivo .csv para a base de dados utilizada sem utilizar Python.

Irei utilizar o BULK INSERT para ingestão dos dados na base de dados criada. O BULK INSERT é um comando no SQL Server que permite a inserção de grandes volumes de dados em uma tabela de uma vez só. Ele é útil quando você precisa importar dados de arquivos de texto ou arquivos CSV para o SQL Server. O mesmo pode ser executado em modo rápido ou em modo em lote. No modo rápido, o SQL Server tenta otimizar o processo de inserção para uma melhor performance. No modo em lote, o SQL Server usa um log de transações para controlar as inserções em massa.

Para executar o BULK INSERT, é preciso especificar o nome da tabela de destino e o caminho do arquivo de origem. Além disso, você pode especificar outras opções, como o tipo de arquivo de origem (por exemplo, CSV), o delimitador de campo, o caractere de terminação de linha e outras configurações. Exemplo de uso do BULK INSERT para importar dados de um arquivo CSV:

BULK INSERT Tabela_exemplo

FROM 'C:\caminho\para\arquivo.csv'

WITH (

FIELDTERMINATOR = ',',

ROWTERMINATOR = '\n',

FIRSTROW = 2

);

  1. Query para criação da tabela. (Colunas criadas antecipadamente, pois, Bulk Insert não cria colunas ao inserir os dados na tabela.)

QueryTBSSMS

  1. Criação da Query para ingestão de dados do arquivo .csv utilizando o BULK INSERT.

QueryBULKSSMS

  1. Query de criação da tabela executada.

QueryTBExec

  1. Conferindo a tabela.

ConferindoTB

5º Etapa

Crie uma base de dados no Azure SQL Database.

  1. Resource Group criado.

RG

  1. Servidor e Database criados.

SVeDB

6º Etapa

Utilize alguma ferramenta para efetuar a migração dos dados que estão no SSMS do teu computador pessoal para o Azure Database.

  1. Ferramenta Azure Data Migration Assistant instalada.

O Azure Data Migration Assistant (DMA) é uma ferramenta gratuita da Microsoft que ajuda na migração de bancos de dados locais para o Azure. Ele permite a migração de várias fontes de dados, incluindo Microsoft SQL Server, Oracle e Sybase, para Azure SQL Database, Azure SQL Managed Instance e SQL Server em uma VM do Azure.

DMA

  1. Criando um novo projeto de migração no DMA.

MigrationDMA

  1. Conectando com o servidor de origem para a migração de dados.

SourceDMA

  1. Conectando ao destino (Azure Database).

SinkDMA

  1. Selecionando a tabela para miração.

TbDMA

  1. Script para criação da tabela gerado.

ScriptDMA

  1. Deploy do Schema.

image

  1. Migrando dados.

DeployDadosDMA

8.1 Processo de migração concluída.

MigrationExec

  1. Conferindo migração pelo Query Editor no ambiente Azure.

ConferindoQueryEditor

Mini projeto feito para prática e estudo, toda dica será sempre bem vinda!

About

O projeto consiste em desenvolver uma solução para a migração de dados de uma fonte com muitos arquivos para uma base de dados hospedada em ambiente Cloud.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages