随着互联网的不断发展,越来越多的用户和企业都开始接触和学习大数据技术。新的基础架构计划未来,大数据技术将开始得到全面应用,大数据还将重塑整个产业结构。要理解大数据,我们必须首先从大数据的概念开始。与人工智能的概念不同,大数据的概念相对清晰,大数据的技术体系也已经成熟。为了解释大数据的概念,您可以从数据本身的特征开始,然后从方案,应用和行业逐步扩展。大数据旨在寻求研究方法,并在结构上从更大或更复杂的数据集中获取信息,或快速处理由传统数据处理程序和软件处理的数据集。大数据涉及的数据量通常超过了传统软件在可接受的时间和成本范围内处理的能力。大数据本身的特点通常集中在五个方面,即大体量,高速度,多样性,准确度和精确性与信噪比对这五个维度的理解和认识是理解大数据概念的关键。当然,随着大数据技术的发展及其在行业中的应用,数据本身的规模也在一定程度上得到了扩展,而这些扩展本身也是对大数据概念的一种丰富和改进。而大数据分析的特点和以上五个方面也是密不可分的。大数据由大量数据组成,从几个TB到几个ZB。这些数据可能会分布在许多地方,通常是在一些连入因特网的计算网络中。一般来说,凡是满足大数据的几个V的条件的数据都会因为太大而无法被单独的计算机处理。单单这一个问题就需要一种不同的数据处理思路,这也使得并行计算技术得以迅速崛起。大数据是在不停地刷新的,通常处于很高的传输速度之下。它经常被认为是数据流,而数据流通常是很难被归档的。这就是为什么只能收集到数据其中的某些部分。如果我们有能力收集数据的全部,长时间存储大量数据也会显得非常昂贵,所以周期性地收集数据遗弃一部分数据以节省空间,仅保留数据摘要。这个问题在未来会显得更为严重,因为越来越多的数据正以越来越快的速度所产生。在过去,数据或多或少是同构的,这种特点也使得它更易于管理。这种情况并不出现在大数据中,由于数据的来源各异,因此形式各异。这体现为各种不同的数据结构类型,半结构化以及完全非结构化的数据类型。结构化数据多被发现在传统数据库中,数据的类型被预定义在定长的列字段中。在过去的几年里,半结构化数据和结构化数据成为了大数据的主体数据类型。这是一个在讨论大数据实时常被忽略的一个属性,部分原因是这个属性相对来说比较新,尽管它与其他的属性同样重要。这是一个与数据是否可靠相关的属性,也就是那些在数据科学流程中会被用于决策的数据。在大数据中发现哪些数据对商业是真正有效地,这在信息理论中是个十分重要的概念。由于并不是所有的数据源都具有相等的可靠性,在这个过程中,大数据的精确性会趋于变化。如何增加可用数据的精确性是大数据的主要挑战。数据价值密度通常是衡量数据价值的重要基础。大数据中的数据值密度较低,需要更快,更方便。完成数据的价值提取过程,这也是当前大数据平台的核心功能之一。
转载请注明:
http://www.aideyishus.com/lktp/7529.html