We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
本人是世界XXXL大厂的xxxxxxxx...s组小组组长一名,无头衔。迫于生计,去年开始陆续出去接客,接活。 作为没见过大世面的搬砖小工头,见到客户,只会小声讲我们的产品能做数据的离线处理。没想到客户张口从叙利亚问题谈到美国总统大选,彷佛我们需要交付的特性直接关乎了世界和平。
经过几番周折和理解,基本上搞清了客户对于数据处理的主要诉求:
本人之前是接触过hue的,但是因为是java出身,没有用python做过工程,怕表演砸了饭碗,所以直接放弃了用Hue糊弄一下的想法。 在度娘上徘徊了几圈,经过几番周折,终于从谷歌上搜到了托管在微软的github上的webank开源的linkis,最终也锁定了DSS。
1 标配“拖拉拽” 2 “轻松”一键式 1)界面上的一键开始,看图不解释。 2)安装部署的一键式
容器化后各个服务通信问题,注册到eurka上的示例通过ip加port方式。
共同文件目录统一挂载,保证各个服务关键日志能被拿到。
hive spark客户端等配置文件统一挂载至容器外,方便因环境变化的修改。
升级hive,hadoop的套件的版本,这里略去了一万字,最后结果还不错。
spark回调driver的问题。
容器化以后读日志文件死锁问题。
dss容器化,quality容器化,schediuls容器化.... 差点把大数据集群也搬进容器内了(捂脸).....
折腾了小半年以后,小有收获,结果和微众银行的专家沟通后发现,开源版容器化即将发布... 终于理解了习大大提倡的开放共享是多么重要,技术既要内循环也要外循环。
3 语法智能提示,日志在线查看,看图不说话,用户想要的就是我们想要的。
4 不能出安全事故啊 1)元数据安全 开源出来的版本,metadata元数据例如hive,只支持jdbc查询方式,说白了要用户名密码,被用户无情拒绝。 我们也主要应对场景也主要分三个场景: 1. 我们自己的大数据集群,可以采用jdbc方式查询元数据。 2. 适配kerberos,用HiveMetaStoreClient方式查询。 3. 适配 某为 大数据平台用的是webHcat。 2)主数据安全方式 由于开源版本有租户概念,可以很好的做到用户安全访问,这里不过多描述。 Todo:引入Ranger 3)dss多系统https访问 产品没买安全证书,访问chrome还要点一下高级。dss多个系统是通过iframe嵌入的,为了不让上帝再多点一次“继续浏览不安全网址”, 我们采用通过二次代理方法解决。
为了多做项目,考了安全考试,签了涉密岗位,从此出国除了考虑新冠肺炎还要考虑信息安全,做项目不容易,客户安全了,我们才能稳定。 5 明天能上线吗? 能,但是,哥,能把标书让我们先给咱写了吗,这脏活累活就交给我们干吧。
由于项目涉及太多,不便多说,我简单文字描述方案: 1) 客户需求: 某市政务相关项目,统计各个局办事效率的排名。 2) demo演示: 数据开发编写脚本,数据可视化生成报表,数据流组织业务,scheduls调度起来,整个流程拉通且可视化。 3) 结果:拿下项目
感受:最好的实践不一定是技术,而是能拿下项目,帮客户成功,让项目组的兄弟有肉吃,有劲干。
The text was updated successfully, but these errors were encountered:
👍👍👍👍👍👍👍
Sorry, something went wrong.
No branches or pull requests
应用场景:
本人是世界XXXL大厂的xxxxxxxx...s组小组组长一名,无头衔。迫于生计,去年开始陆续出去接客,接活。
作为没见过大世面的搬砖小工头,见到客户,只会小声讲我们的产品能做数据的离线处理。没想到客户张口从叙利亚问题谈到美国总统大选,彷佛我们需要交付的特性直接关乎了世界和平。
经过几番周折和理解,基本上搞清了客户对于数据处理的主要诉求:
本人之前是接触过hue的,但是因为是java出身,没有用python做过工程,怕表演砸了饭碗,所以直接放弃了用Hue糊弄一下的想法。
在度娘上徘徊了几圈,经过几番周折,终于从谷歌上搜到了托管在微软的github上的webank开源的linkis,最终也锁定了DSS。
解决的问题:
1 标配“拖拉拽”
2 “轻松”一键式
1)界面上的一键开始,看图不解释。
2)安装部署的一键式
容器化后各个服务通信问题,注册到eurka上的示例通过ip加port方式。
共同文件目录统一挂载,保证各个服务关键日志能被拿到。
hive spark客户端等配置文件统一挂载至容器外,方便因环境变化的修改。
升级hive,hadoop的套件的版本,这里略去了一万字,最后结果还不错。
spark回调driver的问题。
容器化以后读日志文件死锁问题。
dss容器化,quality容器化,schediuls容器化....
差点把大数据集群也搬进容器内了(捂脸).....
折腾了小半年以后,小有收获,结果和微众银行的专家沟通后发现,开源版容器化即将发布...
终于理解了习大大提倡的开放共享是多么重要,技术既要内循环也要外循环。
3 语法智能提示,日志在线查看,看图不说话,用户想要的就是我们想要的。
4 不能出安全事故啊
1)元数据安全
开源出来的版本,metadata元数据例如hive,只支持jdbc查询方式,说白了要用户名密码,被用户无情拒绝。
我们也主要应对场景也主要分三个场景:
1. 我们自己的大数据集群,可以采用jdbc方式查询元数据。
2. 适配kerberos,用HiveMetaStoreClient方式查询。
3. 适配 某为 大数据平台用的是webHcat。
2)主数据安全方式
由于开源版本有租户概念,可以很好的做到用户安全访问,这里不过多描述。
Todo:引入Ranger
3)dss多系统https访问
产品没买安全证书,访问chrome还要点一下高级。dss多个系统是通过iframe嵌入的,为了不让上帝再多点一次“继续浏览不安全网址”,
我们采用通过二次代理方法解决。
为了多做项目,考了安全考试,签了涉密岗位,从此出国除了考虑新冠肺炎还要考虑信息安全,做项目不容易,客户安全了,我们才能稳定。
5 明天能上线吗?
能,但是,哥,能把标书让我们先给咱写了吗,这脏活累活就交给我们干吧。
最佳实践&价值:
由于项目涉及太多,不便多说,我简单文字描述方案:
1) 客户需求: 某市政务相关项目,统计各个局办事效率的排名。
2) demo演示: 数据开发编写脚本,数据可视化生成报表,数据流组织业务,scheduls调度起来,整个流程拉通且可视化。
3) 结果:拿下项目
感受:最好的实践不一定是技术,而是能拿下项目,帮客户成功,让项目组的兄弟有肉吃,有劲干。
The text was updated successfully, but these errors were encountered: