【大数据入门】大数据的特点及意义

1.1 大数据的特点及意义

1.1.1 了解大数据的特点及意义

1.1.1.1 大数据简介
  1. 大数据或称巨量数据,首先是指数据体量(volumes)大,指代大型数据集,一般在10TB规模左右,但在实际应用中,很多用户把多个数据集放在一起,已经形成了PB级的数据量;

  2. 其次是指数据类别(variety)多,数据来自多种数据源,数据种类和格式日渐丰富,已冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据;

  3. 接着是数据处理速度(velocity)快, 在数据量非常庞大的情况下,也能够做到数据的实时处理;

  4. 最后一个特点是指数据真实性(veracity)高,随着社交数据、企业内容、交易与应用数据等新数据源的兴起,传统数据源的局限被打破,用户愈发需要有效的信息之力以确保其真实性及安全性。

1.1.1.2 大数据的作用
  • 第一,对大数据的处理分析正成为新一代信息技术融合应用的结点。

  • 第二,大数据是信息产业持续高速增长的新引擎。

  • 第三,大数据利用将成为提高核心竞争力的关键因素。各行各业的决策正在从“业务驱动”转变“数据驱动”。

  • 第四,大数据时代科学研究的方法手段将发生重大改变。例如,抽样调查是社会科学的基本研究方法。在大数据时代,可通过实时监测、跟踪研究对象在互联网上产生的海量行为数据,进行挖掘分析,揭示出规律性的东西,提出研究结论和对策。

1.1.1.3 大数据的构成

什么是大数据?

大数据包括:交易数据和交互数据集在内的所有数据集。

大数据 = 海量数据 + 复杂类型的数据。

海量交易数据:

企业内部的经营交易信息主要包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态、历史数据。通过这些数据,我们能了解过去发生了什么。

海量交互数据:

源于Facebook、Twitter、LinkedIn及其他来源的社交媒体数据构成。它包括了呼叫详细记录CDR、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输Manage FileTransfer协议传送的海量图像文件、Web文本和点击流数据、科学信息、电子邮件等等。可以告诉我们未来会发生什么。

海量数据处理:

大数据的涌现已经催生出了设计用于数据密集型处理的架构。例如具有开放源码、在廉价硬件集群中运行的 Apache Hadoop。

1.1.1.4 大数据与云计算

SaaS(Software as a Service):从一个集中的系统部署软件,使之在一台本地计算机上(或从云中远程地)运行的一个模型。由于是计量服务,SaaS允许出租一个应用程序,并计时收费。主要有Google Apps,Microsoft “Software+Services”。

PaaS(Platform as a Service):类似于laaS,但是它包括操作系统和围绕特定应用的必需的服务。主要有IBM IT factory,Google App Engine,Force.com。

IaaS(Infrastructure as a Service):将基础设施(计算资源和存储)作为服务出租。主要有Amazon EC2,IBM Blue Cloud,Sun Grid。

  • 从整体上看,大数据与云计算是相辅相成的。

  • 从技术上看,大数据根植于云计算。

    • 云计算关键技术中的海量数据存储技术、海量数据管理技术、MapReduce编程模型,都是大数据技术的基础。

大数据的关键技术:

云计算技术 描述
虚拟化技术 软硬件隔离,资源整合。
云计算平台管理技术 大规模系统运营,快速故障检测与恢复。
MapReduce编程模型 分布式编程模型,用于并行处理大规模数据集的软件框架。
海量数据存储技术 分布式存储方式存储数据,冗余存储方式保证系统可靠。
海量数据管理技术 NoSQL数据库,进行海量数据管理以便后续分析挖掘。
1.1.1.5 大数据技术与云计算差异

大数据技术与云计算差异_

1.2 大数据分析的基本方法

标签