1、(1) 数据处理引擎专用化:为了降低成本,提高能效,大数据系统需要摆脱传统的通用体系,趋向专用化架构技术.为此,国内外的互联网龙头企业都在基于开源系统开发面向典型应用的大规模、高通量、低成本、强扩展的专用化系统;
2、(2) 数据处理平台多样化:自2008年以来克隆了Google的GFS和MapRe蟠校盯昂duce的Apache Hadoop逐渐被互联网企业所广泛接纳,并成为大数据处理领域的事实标准.但在全面兼容Hadoop的基础上,Spark通过更多的利用内存处理大幅提高系统性能.而Scribe,Flume,Kafka,Storm,Drill,Impala,TEZ/Stinger,Presto,Spark/Shark等的出现并不是取代Hadoop,而是扩大了大数据技术的生态环境,促使生态环境向良性化和完整化发展.
3、(3) 数据计算实时化:在大数据背景下,作为批量计算的补充,旨在将PB级数据的处理时间缩短到秒级的实时计算受到越来越多的关注.