大数据常用处理框架都有哪些?
现在大数据常用处理框架都有哪些?能详细介绍下吗
推荐答案
同学,您好!大数据发展至今,大数据常用处理框架主要分为两种大需求,一种是批处理,一种是流处理。在企业的实际业务场景中,可能只需要批处理或流处理,也可能同时需要批处理和流处理,这就需要在构建大数据系统平台时根据具体场景选择技能。
1.批处理
批处理是大数据处理中的常见需求。 批处理主要是对大容量静态数据集进行操作,计算过程完成后返回结果。 鉴于这种处理模式,批处理有一个明显的缺点,就是面对海量数据,核算和处理的效率并不理想。如今,批处理极其擅长处理大量的持久性数据,因此常被用来分析历史数据。
2.流处理
批处理之后的另一个常见需求是流处理,它对实时进入系统的数据进行计算操作。处理结果立即可用,并将在新数据到达时继续更新。
在实时性方面,流处理是优秀的,但是流处理只能同时处理一个(真正的流处理)或者少量(微批处理,Micro-batch Processing)数据,并且只维护不同记录之间的条件数最少,对硬件的要求也比较高。
3.批处理+流处理
在实际使用中,有很多批处理和流处理并存的场景,混合处理框架就是为了处理这样的问题而设计的。 提供数据处理的通用解决方案,不仅提供了数据处理所需的方法,还提供了自己的集成项、库和工具,可以满足图分析、机器学习、交互式查询等多种场景。
总之,大数据常用处理框架主要有批处理、流处理、批处理+流处理,希望以上的内容对您有所帮助!