0%

hive简介

使用的版本是3.1.2

hive概念

hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库将HDFS中存储的结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。hive十分适合对数据仓库进行统计分析,其还支持UDF(User-Defined Function)、UDAF(User-Defined Aggregate Function)和UDTF(User-Defined Table-Generating Function),可以实现对map和reduce函数的定制,为海量数据集的操作提供了良好的扩展性

本质就是将HQL转化为MapReduce程序

hive处理的数据存储在HDFS

hive分析数据的底层实现是MapReduce

hive执行程序运行在Yarn上

阅读全文 »

HTTP报文格式

请求报文

1
2
3
4
<method> <url> <version>  都由空格分隔
<headers>

<requestbody>
  • 请求行:包含请求方法、URI、HTTP版本信息 <方法> <空格> <URI> <空格> <HTTP版本>
  • 请求头 <字段名>:<字段值> 可以有零个或多个请求头,请求头是以一个空行结束的
  • 请求内容实体
阅读全文 »

消息队列的选型

ActiveMQ RabbitMQ RocketMQ kafka
开发语言 java erlang java scala
单机吞吐量 万级 万级 10万级 10万级
时效性 ms级 us级 ms级 ms级以内
可用性 高(主从架构) 高(主从架构) 非常高(分布式架构) 非常高(分布式架构)
功能特性 成熟的产品,在很多公司得到应用;有较多的文档;各种协议支持较好 基于erlang开发,所以并发能力很强,性能极其好,延时很低;管理界面较丰富 MQ功能比较完备,扩展性佳 只支持主要的MQ功能,像一些消息查询,消息回溯等功能没有提供,毕竟是为大数据准备的,在大数据领域应用广。
弊端 更新频率慢 使用erlang开发的,定制化比较困难

监听器

在启动zookeeper客户端时,会创建两个线程,一个负责网络连接通信(connect),一个负责监听(listener),通过connect线程将注册的监听事件发送给zookeeper,zookeeper会将注册的监听事件添加到注册监听列表中,如果zookeeper监听到数据或路径变化,就会将这个消息发送到listener线程,进而调用prcess()方法进行处理监听事件

阅读全文 »

zookeeper命令

该版本为3.6.1版本,不同版本可能略有不同

zookeeper服务端启动之后,可以在客户端使用命令进行一系列操作

阅读全文 »