简单来说,大数据是可以被认为具有5 VS:卷,速度,品种,准确性和值的数据。
- 卷:巨大卷中的任何数据都可以称为大数据。如今,数据在Terabytes和Petabytes中生成,使它们“大”足以被视为大数据。
- 速度:大数据问题必须处理高速连续生成的数据。当天的应用每秒产生大量数据。因此,要有效地处理该乘法数据,大数据分析师将需要智能工具和技术。
- 品种:这里,术语“品种”是指数据的异质性质。也就是说,实时数据始终由异构源产生,因此,它可以是结构或非结构化的,甚至半结构化。这一品种是使大数据难以应对的最大因素之一。
- 准确性:大数据的另一个主要特征是其真实性。它指的是数据中可能存在的错误和不一致。在使用大数据时,分析师应超额仔细考虑可以妥善掩盖这些声音的解决方案。
- 值:虽然有可能在数据中具有缺失的值,错误或不一致的可能性,但数据应该始终有利于提取洞察力。为此,它需要在其中有有用的信息。如果数据内部存在的属性不够有价值,则不能用于进一步分析。
另一方面,Hadoop是一个用于存储和分析大数据的开源数据框架。在Java中开发,Hadoop主要由两个核心组件组成:HDFS和MapReduce。