Skip to content

Commit

Permalink
[1.1_dev][Taier-website] add flink sql docs
Browse files Browse the repository at this point in the history
  • Loading branch information
vainhope committed May 7, 2022
1 parent b7422bb commit 5ed04a8
Show file tree
Hide file tree
Showing 17 changed files with 175 additions and 57 deletions.
2 changes: 1 addition & 1 deletion website/docs/functions/datasource.md
Original file line number Diff line number Diff line change
Expand Up @@ -19,5 +19,5 @@ sidebar_label: 数据源
该文件是一个zip压缩文件,里面需要包含.keytab文件和krb5.conf文件
:::

填完必须要填的信息后,可以点击测试连通性按钮来检测该数据源是否可用,如果成功,再点击确定即可新增成功一个数据源
填完必要信息后,可以点击测试连通性按钮来检测该数据源是否可用

2 changes: 1 addition & 1 deletion website/docs/functions/multi-cluster.md
Original file line number Diff line number Diff line change
Expand Up @@ -375,5 +375,5 @@ prejob和session 都依赖chunjun的插件包和flink的lib包
**sparkYarnArchive**是Spark SQL程序运行时加载的包 直接将spark目录下的jar包上传到对应目录

:::tip
Flink、Spark可以添加自定义参数,在自定义参数中添加Flink、Spark官方参数来调整1任务提交参数信息
Flink、Spark可以添加自定义参数,在自定义参数中添加Flink、Spark官方参数来调整任务提交参数信息
:::
31 changes: 16 additions & 15 deletions website/docs/functions/task/data-acquisition.md
Original file line number Diff line number Diff line change
Expand Up @@ -3,39 +3,40 @@ title: 实时采集
sidebar_label: 实时采集
---

## 实时采集任务
### 新建任务
## 新建任务
进入"开发目录"菜单,点击"新建任务"按钮,并填写新建任务弹出框中的配置项,配置项说明:
1. 任务名称:需输入英文字母、数字、下划线组成,不超过64个字符
2. 任务类型:选择实时采集
3. 存储位置:在页面左侧的任务存储结构中的位置
4. 描述:长度不超过200个的任意字符
点击"保存",弹窗关闭,即完成了新建任务

:::tip
实时采集支持以向导模式或脚本模式进行任务的配置
支持的数据源
MySQL的Binlog模式到kafka
Oracle的LogMiner模式到kafka
实时同步任务默认为per-job模式
:::
### 任务配置
## 任务配置
实时采集任务的配置共分为4个步骤:
1. 选择数据来源:选择已配置的数据源,系统会读取其中的数据
2. 选择数据目标:选择已配置的数据源,系统会向其写入数据
3. 通道控制:控制数据同步的执行速度、错误数据的处理方式等
4. 预览保存:再次确认已配置的规则并保存

### 运行任务
![add-source](/img/readme/data-acquisition.png)

## 运行任务
在当前任务打开的状态下,单击编辑器右上角的「提交到调度」按钮,在实时运维中心提交任务

#### 任务配置
![add-source](/img/readme/data-acquisition.png)
## 任务指标
点击任务名称,可以通过数据曲线、运行信息、日志、属性参数,四个纬度了解任务当前状态
1.数据曲线: 通过配置的prometheus获取相应的指标
2.属性参数:显示当前任务的脚本和环境参数
3.运行信息:展示任务拓扑图
4.日志:显示运行中的Task Managers 和 Job Manager 日志

#### 任务信息
![add-source](/img/readme/data-acquisition-promethous.png)

### 任务展示
## 支持的数据源
`MySQL``Binlog`模式到`kafka`
`Oracle``LogMiner`模式到`kafka`

## 任务运维
在实时运维中心,可以进行提交、停止、续跑等操作
:::tip
续跑:分为两种情况
Expand Down
122 changes: 119 additions & 3 deletions website/docs/functions/task/flink-sql.md
Original file line number Diff line number Diff line change
Expand Up @@ -3,14 +3,130 @@ title: Flink SQL
sidebar_label: Flink SQL
---

## Flink SQL任务
Flink SQL 任务提供两种模式进行选择
## 向导模式
> 提供向导式的开发引导,通过可视化的填写和下一步的引导,帮助快速完成数据任务的配置工作。学习成本低,但无法使用到一些高级功能

### 新建任务
进入"开发目录"菜单,点击"新建任务"按钮,并填写新建任务弹出框中的配置项,配置项说明:
1. 任务名称:需输入英文字母、数字、下划线组成,不超过64个字符
2. 任务类型:选择数据同步
2. 任务类型:选择Flink SQL
3. 存储位置:在页面左侧的任务存储结构中的位置
4. 描述:长度不超过200个的任意字符
点击"保存",弹窗关闭,即完成了新建任务
5. 点击"保存",弹窗关闭,即完成了新建任务

### 配置源表
1. 点击添加源表,若需要添加多路`Kafka`作为输入时,可继续在下面的模块点击添加
2. 选择数据源类型:目前只支持`Kafka`
3. 选择`Kafka Topic`
4. 映射表:由`Kafka Topi`c内的数据映射到`Flink`中的``,需在此输入`Flink`的表名,从而在`Flink`中以SQL的形式处理数据
5. 时间特征:Flink分为`ProcTime``EventTime`两种时间特征
:::tip
ProcTime:处理时间指执行对应Operation的设备的系统时间
EventTime:事件时间是每个单独事件在它的生产设备上发生的时间,若选择了EventTime,则还需补充时间列、偏移量和时区信息,这是Flink Watermark机制的要求
> 时间列必须是映射表中已声明的一列(当前仅支持为Timestamp类型),含义是基于该列生成Watermark,并且标识该列为Event Time列,可以在后续Query中用来定义窗口
偏移量单位为毫秒,含义为Watermark值与Event time值的偏移量。通常一条记录中的某个字段就代表了该记录的发生时间
通过配置作业的时区调整时间类型数据的输出结果。默认时区为东八区(Asia/Shanghai)
:::
6. 并行度:算子的并发数,指的是Flink集群的Task Slot的数量

![add-source](/img/readme/flink-sql-source-table.png)

### 配置结果表
1. 点击 添加结果表 ,若需要添加多路输出时,可继续在下面的模块点击 添加结果表
2. 选择存储类型:目前可选择`MySQL``HBase``ElasticSearch`
:::tip
若选择了MySQL,需选择MySQL中的一张表
若选择了HBase,需选择HBase中的一张表及rowkey
若选择了ElasticSearch,需选择ElasticSearch中的索引、id
:::
3. 映射表:由`Kafka Topic`内的数据映射到Flink中的``,需在此输入Flink的表名,从而在Flink中以SQL的形式处理数据
4. 字段信息:即Flink中此表对应的字段信息和类型。输入模式为 ` <源表字段名><字段类型>AS <源表映射字段名>` ,多字段信息通过回车进行分割
5. 并行度:算子的并发数,指的是Flink集群的Task Slot的数量
6. 数据输出时间:结果表输出数据的时间间隔,任务运行后每满足指定时间间隔就输出一次数据
7. 数据输出条数:结果表输出数据的条数间隔,任务运行后每满足指定条数就输出一次数据

![add-source](/img/readme/flink-sql-sink-table.png)

### 编写SQL
1. 编辑sql 保存,可至任务运维页面进行任务操作

![add-source](/img/readme/flink-sql.png)

## 脚本模式
> 通过直接编写SQL脚本来完成数据开发,适合高级用户,学习成本较高。脚本模式可以提供更丰富灵活的能力,做精细化的配置管理
### 脚本示例
```sql
CREATE TABLE source
(
id INT,
name STRING,
money DECIMAL(32, 2),
dateone timestamp,
age bigint,
datethree timestamp,
datesix timestamp(6),
datenigth timestamp(9),
dtdate date,
dttime time
) WITH (
'connector' = 'stream-x',
'number-of-rows' = '10', -- 输入条数,默认无限
'rows-per-second' = '1' -- 每秒输入条数,默认不限制
);

CREATE TABLE sink
(
id INT,
name STRING,
money DECIMAL(32, 2),
dateone timestamp,
age bigint,
datethree timestamp,
datesix timestamp(6),
datenigth timestamp(9),
dtdate date,
dttime time
) WITH (
'connector' = 'stream-x',
'print' = 'true'
);

insert into sink
select *
from source;
```

:::tip
脚本模式sql语法 请参考 [**chunjun**](https://github.com/DTStack/chunjun/blob/master/docs/quickstart.md)
:::
## 语法校验
在任务提交运行前 检验sql语法的正确性

![add-source](/img/readme/flink-sql-grammy-check.png)

## 模式切换
当向导模式满足不了需求的时候 可以转换为脚本模式

![add-source](/img/readme/flink-script-convert.png)
![add-source](/img/readme/flink-script-convert-result.png)

## 任务运维
在实时运维中心,可以进行提交、停止、续跑等操作
:::tip
续跑:分为两种情况
1.通过指定文件恢复并续跑
2.选择 CheckPoint或SavePoint 续跑
> 在任务运行时会根据环境参数中execution.checkpointing.interval保存CheckPoint
:::

## 数据源支持
目前向导模式仅支持
源表:`kafka`
结果表: `hbase``mysql``es`
维表:`mysql`


:::caution
Expand Down
5 changes: 2 additions & 3 deletions website/docs/functions/task/hive-sql.md
Original file line number Diff line number Diff line change
Expand Up @@ -3,15 +3,14 @@ title: Hive SQL
sidebar_label: Hive SQL
---

## HiveSQL 任务
### 新建任务
## 新建任务
进入"开发目录"菜单,点击"新建任务"按钮,并填写新建任务弹出框中的配置项,配置项说明:
1. 任务名称:需输入英文字母、数字、下划线组成,不超过64个字符
2. 任务类型:选择Hive SQL
3. 存储位置:在页面左侧的任务存储结构中的位置
4. 描述:长度不超过200个的任意字符
点击"保存",弹窗关闭,即完成了新建任务
### 编辑任务
## 编辑任务
任务创建好后,可以在代码编辑器中编写SQL语句
编写的SQL语句示例如下:
```sql
Expand Down
5 changes: 2 additions & 3 deletions website/docs/functions/task/spark-sql.md
Original file line number Diff line number Diff line change
Expand Up @@ -3,15 +3,14 @@ title: Spark SQL
sidebar_label: Spark SQL
---

## SparkSQL 任务
### 新建任务
## 新建任务
进入"开发目录"菜单,点击"新建任务"按钮,并填写新建任务弹出框中的配置项,配置项说明:
1. 任务名称:需输入英文字母、数字、下划线组成,不超过64个字符。
2. 任务类型:选择SparkSQL。
3. 存储位置:在页面左侧的任务存储结构中的位置。
4. 描述:长度不超过200个的任意字符。
点击"保存",弹窗关闭,即完成了新建任务。
### 编辑任务
## 编辑任务
任务创建好后,可以在代码编辑器中编写SQL语句
编写的SQL语句示例如下:
```sql
Expand Down
35 changes: 18 additions & 17 deletions website/docs/functions/task/sync.md
Original file line number Diff line number Diff line change
Expand Up @@ -2,8 +2,10 @@
title: 数据同步
sidebar_label: 数据同步
---
数据同步 任务提供两种模式进行选择
## 向导模式
> 向导模式的特点是便捷、简单,可视化字段映射,快速完成同步任务配置,无需关心chunjun的json格式,但需要针对每种数据源进行适配开发
## 数据同步任务
### 新建任务
进入"开发目录"菜单,点击"新建任务"按钮,并填写新建任务弹出框中的配置项,配置项说明:
1. 任务名称:需输入英文字母、数字、下划线组成,不超过64个字符
Expand All @@ -12,11 +14,6 @@ sidebar_label: 数据同步
4. 描述:长度不超过200个的任意字符
点击"保存",弹窗关闭,即完成了新建任务

:::tip
数据开发支持以向导模式或脚本模式进行任务的配置
向导模式的特点是便捷、简单,可视化字段映射,快速完成同步任务配置,无需关心chunjun的json格式,但需要针对每种数据源进行适配开发
而脚本模式的特点是全能、高效,可深度调优,支持全部数据源,完全兼容chunjun的json格式
:::
### 任务配置
数据同步任务的配置共分为5个步骤:
1. 选择数据来源:选择已配置的数据源,系统会读取其中的数据
Expand All @@ -25,7 +22,15 @@ sidebar_label: 数据同步
4. 通道控制:控制数据同步的执行速度、错误数据的处理方式等
5. 预览保存:再次确认已配置的规则并保存

### 环境参数
![add-source](/img/readme/sync.png)

## 脚本模式
> 脚本模式的特点是全能、高效,可深度调优,支持全部数据源,完全兼容chunjun的json格式
### 任务配置
![add-source](/img/readme/sync-json.png)

## 环境参数
```properties
## 任务运行方式:
## per_job:单独为任务创建flink yarn session,适用于低频率,大数据量同步
Expand All @@ -44,32 +49,28 @@ sidebar_label: 数据同步
```

:::tip
右侧任务参数有数据同步的默认参数信息 可以修改数据同步的运行模式以及slot数量等参数 数据同步同步任务默认为session模式
右侧任务参数有数据同步的默认参数信息 可以手动调整数据同步的运行模式以及slot数量等参数
数据同步同步任务默认为session模式
:::

### 运行任务
在当前任务打开的状态下,单击编辑器右上角的「运行」按钮,可触发数据同步任务的运行

### 支持的数据源

#### 数据源
## 向导模式支持的数据源
### 数据源
* MySQL
* ORACLE
* POSTGRESQL
* HIVE
* SPARK THRIFT

#### 写入源
### 写入源
* MySQL
* ORACLE
* POSTGRESQL
* HIVE
* SPARK THRIFT

#### 向导模式
![add-source](/img/readme/sync.png)
#### 脚本模式
![add-source](/img/readme/sync-json.png)


:::caution
数据同步 依赖控制台 Flink组件 运行数据同步前请确保对应组件配置正确
Expand Down
14 changes: 8 additions & 6 deletions website/docs/guides/introduction.md
Original file line number Diff line number Diff line change
Expand Up @@ -28,18 +28,20 @@ sidebar_position: 1
* 实战检验:得到数百家企业客户生产环境实战检验

#### 易用性
* 支持大数据作业`Spark``Flink`的调度,
* 支持大数据作业`Spark``Flink``Hive`的调度,
* 支持众多的任务类型,目前支持 Spark SQL、数据同步
:::tip
后续将开源: SparkMR、PySpark、FlinkMR、Python、Shell、Jupyter、Tersorflow、Pytorch、
HadoopMR、Kylin、Odps、SQL类任务(MySQL、PostgreSQL、Hive、Impala、Oracle、SQLServer、TiDB、带格式的:突出显示
greenplum、inceptor、kingbase、presto)
后续将开源:
SparkMR、PySpark、FlinkMR、Python、Shell、Jupyter、TersorFlow、Pytorch、
HadoopMR、Kylin、Odps
SQL类: MySQL、PostgreSQL、Impala、Oracle、SQLServer、TiDB、
greenplum、inceptor、kingbase、presto
:::

* 可视化工作流配置:支持封装工作流、支持单任务运行,不必封装工作流、支持拖拽模式绘制DAG
* DAG监控界面:运维中心、支持集群资源查看,了解当前集群资源的剩余情况、支持对调度队列中的任务批量停止、任务状态、任务类型、重试次数、任务运行机器、可视化变量等关键信息一目了然
* 调度时间配置:可视化配置
* 多集群连接:支持一套调度系统连接多套`Hadoop`集群
* 多集群配置:支持一套调度系统对接多`Hadoop`集群

#### 多版本引擎
* 支持`Spark``Flink`等引擎的多个版本共存
Expand Down Expand Up @@ -68,7 +70,7 @@ sidebar_position: 1
* 任务类型:支持SparkMR、PySpark、FlinkMR、Python、Shell、Jupyter、TensorFlow、Pytorch、
HadoopMR、Kylin、Odps、SQL类任务(MySQL、PostgreSQL、Hive、Impala、Oracle、SQLServer、TiDB、greenplum、Inceptor、Kingbase、Presto)
* 调度方式:同时支持Yarn/K8s
* 计算引擎:同时支持Spark-2.1.x/2.4.x、/1.12(与Flink后续版本)
* 计算引擎:同时支持Spark-2.1.x/2.4.x、Flink 1.12(与Flink后续版本)
* 部署方式:同时支持Scheduler/Worker整合与分离部署
* 功能支持:支持交易日历、事件驱动
* 外部系统对接:支持Taier系统对接外部调度系统(AZKBAN、Control-M、DS调度)
Expand Down
4 changes: 2 additions & 2 deletions website/docs/quickstart/deploy/backend.md
Original file line number Diff line number Diff line change
Expand Up @@ -9,11 +9,11 @@ sidebar_label: 后端部署
请登录 **MySQL** 数据库,创建名为 `taier` 数据库
### 表数据
#### 版本升级
低版本升级到高版本 执行高版本目录下的**increment.sql**
低版本升级到高版本 执行高版本目录下的`increment.sql`

如: 1.0升级到1.1 执行sql/1.1/1.1_increment.sql
#### 初次部署
直接执行sql下的**init.sql**创建新库
直接执行sql下的`init.sql`创建新库
## 项目编译

### 编译脚本
Expand Down
Loading

0 comments on commit 5ed04a8

Please sign in to comment.