博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
hadoop分布式存储(1)-hadoop基础概念
阅读量:6765 次
发布时间:2019-06-26

本文共 1161 字,大约阅读时间需要 3 分钟。

    hadoop是一种用于海量数据存储、管理、分析的分布式系统。需要hadoop需要储备一定的基础知识:1、掌握一定的linux操作命令 2、会java编程。因此hadoop必须安装在有jdk的linux环境中。

    linux环境可以用以下方式获取:1、安装linux操作系统  2、安装linux虚拟机  3、在阿里云、UniteStack上租一个云主机,创建linux环境,然后用putty去链接。

    linux下jdk的安装:百度即可。

    与hadoop相关联的一些基础知识:

Google大数据技术:1.MapReduce:概念"Map(映射)"和"Reduce(归约)",它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。 当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组。2.BigTable:是Google设计的分布式数据存储系统,用来处理海量的数据的一种非关系型的数据库3.GFS:是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。它运行于廉价的普通硬件上,并提供容错功能。它可以给大量的用户提供总体性能较高的服务。hadoop革命性变1.成本降低,能用PC机,不用大型机和高端存储2.软件容错硬件故障视为常态,通过软件保证可靠性3.简化并行分布式计算,无须控制节点同步和数据交换
Hadoop的功能和优势1.Hadoop是开源的分布式存储和分布式计算平台2.Hadoop的组成:HDFS:分步实施文件系统,存储海量数据  MapReduce:并行处理框架,实现任务分解和调度3.Hadoop的用途:搭建大型数据仓库,PB级数据存储、处理、分析、统计等业务(搜索引擎、日志分析、商业智能、数据挖掘)4.Hadoop优势:高扩展、低成本(普通PC机)、成熟的生态圈
hadoop生态系统:1.hdfs2.mapreduce3.相关开源工具: (1)hive:将简单的sql语句转化为hadoop任务,降低使用hadoop的门槛(2)HBASE:区别于传统数据库:存储结构化数据的分布式数据库,放弃事务特性,追求更高的扩展,它提供数据的随机读写和实时访问,实现对表数据的读写功能(3)zookeeper:监控Hadoop集群里的每个节点的状态,管理整个集群的配置,维护数据节点之间的一致性Hadoop版本最高2.6,初学者建议1.2(ver1.2-稳定)
 
 

转载于:https://www.cnblogs.com/acm-jing/p/6160277.html

你可能感兴趣的文章
第13章 使用Bind提供域名解析服务
查看>>
我的友情链接
查看>>
Centos7 mount/ rpm/ yum 软件仓库搭建
查看>>
EC2上源安装vnstat
查看>>
高性能Web服务之varnish应用详解及实战应用
查看>>
我的友情链接
查看>>
CentOS 6网卡名称修改 以及 centos7 采用传统命名方式
查看>>
Maven 中的jar包冲突
查看>>
lvs基于fwm定义集群服务
查看>>
awk 系列Part3:如何使用 awk 按模式筛选文本或字符串
查看>>
用cxfreeze打包Python3.3成exe文件
查看>>
关于c语言内存地址对齐的一点思考
查看>>
Unity3D游戏开发之《愤怒的小鸟》弹弓实现的技能培训
查看>>
重点掌握HTTP协议
查看>>
软件公司 之 老马与新马
查看>>
golang 并发二(调度)
查看>>
Scala的bounds
查看>>
Zookeeper之——关于Zookeeper的那些事
查看>>
我的友情链接
查看>>
linux 下动态链接库的制作与使用
查看>>