“大数据”是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。
“大数据”是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。“大数据”首先是指数据体量大,指代大型数据集,一般在10TB规模左右,但在实际应用中,很多企业用户把多个数据集放在一起,已经形成了PB级的数据量;其次是指数据类别大,数据来自多种数据源,数据种类和格式日渐丰富,已冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据。接着是数据处理速度快,在数据量非常庞大的情况下,也能够做到数据的实时处理。最后一个特点是指数据真实性高,随着社交数据、企业内容、交易与应用数据等新数据源的兴趣,传统数据源的局限被打破,企业愈发需要有效的信息之力以确保其真实性及安全性。
大数据的概念
大数据或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。大数据的特征,由维克托迈尔-舍恩伯格和肯尼斯克耶编写的《大数据时代》中提出,大数据的4V特征:规模性(Volume)、高速性(Velocity)、多样性(Variety)、价值性(Value)。
“大数据”的概念远不止大量的数据和处理大量数据的技术,或者所谓的"4个V"之类的简单概念,而是涵盖了人们在大规模数据的基础上可以做的事情,而这些事情在小规模数据的基础上是无法实现的。换句话说,大数据让我们以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见,最终形成变革之力。
从数据的类别上看,“大数据”指的是无法使用传统流程或工具处理或分析的信息。它定义了那些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集。亚马逊网络服务、大数据科学家 JohnRauser提到一个简单的定义:大数据就是任何超过了一台计算机处理能力的庞大数据量。
但其实,大数据不是关于如何定义,最重要的是如何使用。最大的挑战在于哪些技术能更好的使用数据以及大数据的应用情况如何。这与传统的数据库相比,开源的大数据分析工具的如 Hadoop 的崛起,这些非结构化的数据服务的价值在哪里。
大数据的关键技术
大数据处理流程数据要发挥作用,需经过一定的处理。大数据的处理流程如下:
(1)数据采集:采用ETL技术,从各个数据产生源头,搜集数据。数据釆集过程中力求数据全面无死角、完整不丢失。
(2)数据清洗:按照一定的规则,对数据进行去重操作、异常处理和归一化处理。
(3)数据预处理:这个过程,犹如给猫梳毛一样,朝着一个方向清理脱节的数据,处理不和谐的数据,使得数据具有一致性和有效性。
(4)数据存储:将经过优化的数据,按需集中存储。
(5)统计分析与数据挖掘:基于不同的目的,建立不同的模型,采用一系列算法,开展数据的关联、对比、排序等不同维度的分析,寻找其中的规律,发现潜在的奥秘。
(6)数据可视化:大数据分析的使用者有大数据分析专家,同时还有普通用户, 但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能 够直观的呈现大数据特点,同时能够非常容易被读者所接受,就如同看图说话一样简单明了。
大数据处理方法
(1)数据挖掘法:收集大数据的方法主要釆用数据挖掘,它是目前数据库领域和人工智能研究的热点问题。数据挖掘通俗上讲是海量数据有用价值的发现,它是指将隐藏的、先前未知的有潜在价值信息从众多数据中挖掘出来的一种曲折的过程。数据挖掘 利用多种技术融合而成,主基于机器学习、人工智能、模式识别、统计学、数据库技术等。
在众多数据中去除干扰的数据项后进行分类分析、推理和归纳总结, 从中获取潜在的可用价值的数据,进而帮助领导决策层调整市场运作风险,精准制定策略,获取更大的利益。其任务是将数据进行分类,然后通过数据分析对未来进行预判。分类法在图像模式识别、医疗诊断等领域有着广泛的应用。分类的方法有:机器学习法;统计法;神经网络法;还有粗糙集法等。