Hive

1. 介绍

       什么是Hive

  • Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。
  • 本质是将SQL转换为MapReduce程序

1.2 特点

  • 可扩展

       Hive可以自由的扩展集群的规模,一般情况下不需要重启服务

  • 延展性

       Hive支持用户自定义函数,用户可以根据自己的需求来实现自己的函数

  • 容错

       良好的容错性,节点出现问题SQL仍可完成执行

1.3 Hive与Hadoop的关系

image

1.4 Hive与传统数据库对比

条件 Hive RDBMS
查询语言 HQL SQL
数据存储 HDFS Raw Device or local FileSystem
执行 MapReduce Excutor
执行延迟
处理数据规模
索引 0.8版本后加入位图索引 有复杂的索引

2. 安装

       我通过cdh安装hive,以下记录cdh安装hive过程。

image

image

image

image

       你的要根据你的情况来填写。我建议创建hive类似这样的库的时候,要单独创建一个用户给hive,然后授权hive,别直接使用root用户,我这里是测试,图方便了,线上按照我建议的去做。

例如以下。

create database hive DEFAULT CHARSET utf8 COLLATE utf8_general_ci;
grant all privileges on hive.* to 'hive'@'%' identified by 'hive' 
# 授权的ip地址也可以针对性的做调整

mysql的用户链接hive这样类似hadoop其他组件的数据库一定要配置密码。否则会安装的过程会报错。jdbc去连接的时候会自动带密码。

image

image

image

到此hive安装结束,接下来我们,去页面查看hive的情况。

image

image

从cdh的管理后台的页面上来看。hive安装成功。