Skip to content

augusto-herrmann/FastETL

 
 

Repository files navigation

Logotipo do FastETL. É um canivete tipo suiço com várias peças abertas

Framework fastETL, moderno, versátil, faz quase tudo.


CI Tests

O FastETL é um pacote de plugins do Airflow para construção de pipelines de dados para uma variedade de cenários comuns.

Principais funcionalidades:

  • Replicação de tabelas full ou incremental em bancos de dados SQL Server e Postgres
  • Carga de dados a partir do GSheets e de planilhas na rede Samba/Windows
  • Extração de CSV a partir do SQL
  • Consulta à API do DOU

Este framework é mantido por uma rede de desenvolvedores de diversas equipes do Ministério da Economia e é o resultado acumulado da utilização do Apache Airflow, uma ferramenta livre de código aberto, a partir de 2019.

Para governo: O fastETL é utilizado largamente para replicação de dados acessados via Quartzo (DaaS) do Serpro.

Instalação no Airflow

O FastETL implementa os padrões de plugins do Airflow e para ser instalado basta que ele seja copiado para o diretório plugins no ambiente da instalação do Airflow. Conheça e utilize também nosso ambiente airflow local (o airflow-docker-local) que já possui o FastETL integrado.

Testes

A suíte de testes usa contêineres Docker para simular um ambiente completo de uso, inclusive com o Airflow e os bancos de dados. Por isso, para executar os testes, é necessário primeiro instalar o Docker e o docker-compose.

Para quem usa Ubuntu 20.04, basta digitar no terminal:

snap install docker

Para outras versões e sistemas operacionais, consulte a documentação oficial do Docker.

Para construir os contêineres:

make setup

Para rodar os testes execute:

make setup && make tests

Para desmontar o ambiente execute:

make down

Exemplo de uso

Como colaborar

About

Common functionality for implementing data flows in Apache Airflow DAGs.

Topics

Resources

License

Stars

Watchers

Forks

Languages

  • Python 99.7%
  • Makefile 0.3%