执行步骤：

1. 设置环境变量

vi tpcds-env.sh

数据量
环境变量
设置数据生成节点vi nodenum.sh

2. 生成测试数据

cd tpcds-kit/tools
make clean
make
cd ../..
./gen-data.sh

3. 创建hdfs数据目录

./hdfs-mkdirs.sh

4. 上传数据到hdfs

./upload-data.sh

5. 创建外部表

create-external-tables.sh

6. 创建对应的分区表、并对事实表进行格式化、压缩

create-parquet-partition-tables.sh

7. 生成查询sql

./gen-sql.sh

8. Spark Sql 方式执行测试

./spark-query-tpcds.sh

9. Beeline方式执行测试

./spark-query-tpcds-beeline.sh

注意需要先启动对应的thrift server

10. 说明

当前tpcds-kit目录中的query_templates已为最新修改完成后的templates query_templates_modify目录为修改的sql语句,适配Spark

原项目为 https://github.com/cloudera/impala-tpcds-kit 本项目只为方便在Spark端测试，如有侵权，立刻删除。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

执行步骤：

1. 设置环境变量

2. 生成测试数据

3. 创建hdfs数据目录

4. 上传数据到hdfs

5. 创建外部表

6. 创建对应的分区表、并对事实表进行格式化、压缩

7. 生成查询sql

8. Spark Sql 方式执行测试

9. Beeline方式执行测试

10. 说明

About

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
create-table-sql		create-table-sql
query_sql_1000		query_sql_1000
tpcds-kit		tpcds-kit
README.md		README.md
create-carbondata-tables.sh		create-carbondata-tables.sh
create-external-tables.sh		create-external-tables.sh
create-parquet-partition-tables.sh		create-parquet-partition-tables.sh
gen-data.sh		gen-data.sh
gen-sql.sh		gen-sql.sh
hdfs-mkdirs.sh		hdfs-mkdirs.sh
nodenum.sh		nodenum.sh
rows-count.sh		rows-count.sh
rows_count		rows_count
spark-query-tpcds-beeline.sh		spark-query-tpcds-beeline.sh
spark-query-tpcds.sh		spark-query-tpcds.sh
tableList		tableList
tpcds-env.sh		tpcds-env.sh
upload-data.sh		upload-data.sh

chaogefeng/tpcds-for-spark

Folders and files

Latest commit

History

Repository files navigation

执行步骤：

1. 设置环境变量

2. 生成测试数据

3. 创建hdfs数据目录

4. 上传数据到hdfs

5. 创建外部表

6. 创建对应的分区表、并对事实表进行格式化、压缩

7. 生成查询sql

8. Spark Sql 方式执行测试

9. Beeline方式执行测试

10. 说明

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages