hive简介
使用的版本是3.1.2
hive概念
hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库将HDFS中存储的结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。hive十分适合对数据仓库进行统计分析,其还支持UDF(User-Defined Function)、UDAF(User-Defined Aggregate Function)和UDTF(User-Defined Table-Generating Function),可以实现对map和reduce函数的定制,为海量数据集的操作提供了良好的扩展性
本质就是将HQL转化为MapReduce程序
hive处理的数据存储在HDFS
hive分析数据的底层实现是MapReduce
hive执行程序运行在Yarn上