当数据满足一定的标准,即大数据的5 Vs时,它就变成了大数据。它们是:
- 海量:海量数据被认为是大数据。数据的大小从tb到pb。“大数据”这个词本身就意味着数据必须是“大”的。
- Velocity:当数据生成的速度过高时,数据就会被归为大数据。在实时应用中,数据是不断生成的,这就需要强大的工具来有效地存储和处理这些数据。
- 多样性:大数据从来不被认为是同质化的;它可以是结构化、半结构化或非结构化格式。此外,实时数据总是来自不同的来源,因此可以表现出多样性。
- 准确性:大数据会因为误差、缺失值等原因而存在不一致性。
- 价值:当数据的属性具有价值,便于进一步分析时,数据就被归类为大数据。诸如序列号或许可号之类的属性通常不被视为有价值的属性。