vi tpcds-env.sh
- 数据量
- 环境变量
- 设置数据生成节点
vi nodenum.sh
cd tpcds-kit/tools
make clean
make
cd ../..
./gen-data.sh
./hdfs-mkdirs.sh
./upload-data.sh
create-external-tables.sh
create-parquet-partition-tables.sh
./gen-sql.sh
./spark-query-tpcds.sh
./spark-query-tpcds-beeline.sh
注意需要先启动对应的thrift server
当前tpcds-kit目录中的query_templates已为最新修改完成后的templates query_templates_modify目录为修改的sql语句,适配Spark
原项目为 https://github.com/cloudera/impala-tpcds-kit 本项目只为方便在Spark端测试,如有侵权,立刻删除。