Skip to content

Efetuar o download de arquivos da web com Python. Inserir dados de um dataframe na cloud Azure com Azure SQL Database. Efetuar transformações nos dados com Azure Data Factory.

Notifications You must be signed in to change notification settings

luccayz/dataengineer_project_001

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

6 Commits
 
 
 
 
 
 

Repository files navigation

Data Engineer Project - Data Pipeline

Colocando alguns estudos em prática com um pequeno projeto de Engenharia de Dados.

Diagrama Abstrato do Projeto

Diagrama02

Análise Geral - Projeto de Engenharia de Dados para estudo

Neste projeto organizado em três fases sequenciais, na primeira etapa, faremos o download de um arquivo de algum site da web, utilizando Python para a obtenção do arquivo em formato .csv, .txt ou outro.

Em seguida, na segunda etapa, os dados serão inseridos em uma base de dados da Cloud Azure, utilizando o serviço Azure SQL Database para realizar a ingestão dos dados na nuvem.

Por fim, na terceira etapa, serão efetuadas algumas transformações nos dados, como alteração de tipos de colunas e agrupamentos, utilizando o Azure Data Factory.

Esse processo permitirá otimizar e preparar os dados para análises e insights valiosos, utilizando as ferramentas e recursos da plataforma Azure.

1º Etapa

Pegue algum site da Web que tenha um arquivo em algum formato (.csv, .txt,...) e faça o download dele com Python.

Utilizei a biblioteca requests, é uma das bibliotecas mais populares em Python para fazer requisições HTTP. Ela permite que você envie requisições HTTP com facilidade e é muito simples de usar.

  1. Biblioteca importada
  2. Criação de uma função para baixar o arquivo.
  3. Variável que faz requisição ao servidor HTTP
  4. Estrutura With Open para abrir o arquivo e ser fechado automaticamente após a conclusão.
  5. Atributo .content para escrever os dados no arquivo.

Requests

  1. Arquivo baixado. Csvfile

2º Etapa

Faça a ingestão dos dados em uma base de dados da cloud Azure usando o Azure SQL Database.

  1. Resource group criado no ambiente cloud Microsoft Azure.

RG

  1. Criação do Banco de Dados e Servidor SQL Azure.

SVandDB

  1. Conexão com o Banco de Dados no Azure Data Studio.

AzureDataStudio

  1. Extensão SQL Server Import Instalada para importação do arquivo .csv

SQLImport

  1. Importando arquivo na Base de Dados.

ImportCSVWizard

  1. Ingestão de dados concluída.

Import01 Import02

3º Etapa

Faça algumas transformações nesses dados (trocar type das colunas, agrupamentos,...) usando o Azure Data Factory.

  1. Data Factory criado.

adf

  1. Utilizei o Query Editor para análise da tabela.

QueryEditor

  1. Linked Service criado. (Realiza a conexão para uma determinada fonte de dados que desejamos utilizar.)

LinkedService

  1. Dataset genérico criado com dois parâmetros – (schemaName) | (tableName)

Dataset01 Dataset02

  1. Criei um DataFlow que permite desenvolver uma lógica de transformação de dados que pode ser executada como Activies dentro dos Pipelines.

Dataflow

  1. Pipeline executado junto ao DataFlow.

PipelineDF PipelineDFFinaly

About

Efetuar o download de arquivos da web com Python. Inserir dados de um dataframe na cloud Azure com Azure SQL Database. Efetuar transformações nos dados com Azure Data Factory.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published