大数据技术基础与应用

Victoria ·
更新时间:2024-11-14
· 504 次阅读

大数据时代

第三次信息化浪潮 :大数据+云计算+物联网

大数据时代:
在这里插入图片描述

大数据时代来临的重要因素

一、 技术支撑
在这里插入图片描述

存储:存储设备容量不断增加,价格不断降低 CPU处理能力大幅提升:单核->多核 网络带宽不断增加

二、 数据产生方式的变革 (重要因素)
运营式系统阶段 -> 用户原创内容阶段-> 感知式系统阶段(物联网的兴起(重要因素):摄像头、传感器、气象温、湿度传感器都在时时刻刻在记录数据)

大数据概念和影响 一、 大数据的概念

4V:大量化、多样化、快速化、价值密度低

数据量大:人类在最近两年产生的数据量相当于之前产生的全部数据量
在这里插入图片描述
大数据是由结构化和非结构化数据组成
结构化类型数据:10%(存储在关系型数据库里面的结构化数据)
非结构化数据:90% (图形、图像、文本、视频…) 多样化:非结构化数据多样化 快速化:所有软件要求1秒级 价值密度低,商业价值高 二、 大数据的影响

科学研究的四种范式:
实验-> 理论->计算->数据

在思维方式方面:大数据完全颠覆了传统的思维方式

全样而非抽样:可存储数据内容增加
在这里插入图片描述 效率而非精确:之前是抽样,若精度不高则放到全样上误差会放大。而现在是全样分析,故误差不会改变太多。 相关而非因果
在这里插入图片描述 大数据应用

在这里插入图片描述

大数据关键技术

大数据技术的层次->两大核心技术(分布式存储+分布式处理 )
在这里插入图片描述
在这里插入图片描述
分布式存储:解决海量数据的存储问题

借助集群网络存储

分布式处理:解决海量数据的处理问题

借助集群网络处理

在这里插入图片描述
不同的大数据产品服务的方向是不同的:批处理、交互式计算、实时计算等。每个产品的计算领域是不同,故需要对计算模式进行区分。

计算模式 批处理计算模式:不适合做实时的交互式计算,批处理不能满足时效性要求。MapReduce/Spark为典型代表。但是Spark解决了MapReduce中的一些缺点。MapReduce不能高效地迭代计算,而Spark可以。 流计算:专门针对流数据的实时计算。流数据需要实时处理,给出实时响应,否则分析结果就会失去商业价值。
在这里插入图片描述 图计算:eg:Google Pregel 查询分析计算:有非常高的实时性
在这里插入图片描述 不同的产品服务于不同的计算问题的

在这里插入图片描述

什么是云计算?

两大核心问题:① 解决了海量数据的分布式存储和分布式处理问题 ② 云计算代行特征:虚拟化+多用户

概念:云计算通过网络以服务的方式为用户提供非常廉价的IT资源。

优势:企业不需要自建IT基础设置,可以租用云端资源。

云计算的三种模式

公有云、混合云、私有云

在这里插入图片描述
公有云:面对所有公众使用
私有云:给内部使用
混合云:公有云+私有云

三种云服务

在这里插入图片描述
IaaS —— 基础设施即服务

将基础设施(计算资源和存储)作为服务出租。eg:购买环境,可以在该环境下安装各种软件,所有设施都提供好了

PaaS——平台即服务

在别人搭建的云平台开发环境下开发云计算产品,开发出来的产品也部署在别人的云平台开发环境下,可卖给其他人

SaaS——软件即服务

将软件作为一种服务卖给用户

云计算的关键技术

在这里插入图片描述

虚拟化:

在这里插入图片描述

云计算数据中心:数据中心包含大量大片服务器

在这里插入图片描述

云计算的应用

在这里插入图片描述


作者:Lemon



数据 大数据技术 大数据

需要 登录 后方可回复, 如果你还没有账号请 注册新账号