项目背景
在数字经济时代,数据已经成为企业最重要的资产之一,如何有效地处理和分析这些数据以获取其潜在 价值,已经成为企业面临的重要任务。在进行数据处理和分析时,采用智能算法对数据进行批处理操作。处理过程 中,数据可被划分为适当大小的块,并通过循环逐块进行处理。
业务场景分析
- 数据规模大:数字经济时代的数据规模可能以 TB 为单位
- 数据边缘存储 :数据是企业的核心资产,通常情况下数据保存在企业内部服务器,即边缘端。在进行数据处理时,应避免将数据上传至云端,否则将占用大量的网络带宽,降低数据处理的效率,并且可能导致数据泄露的风险。
- 算法选择多样:在数据分析过程中,涉及的算法程序并没有一个统一的最优解,业务人员需要综合考虑业务需求、算法性能和特点等因素,从众多可行算法中选择最合适的算法来解决问题
项目目标
搭建分布式的批处理计算平台,将现有的批处理算法程序封装为可重用的批处理算法组件,通过平台实现组件的 构建与管理、任务编排与运行等功能。