小菜鸟

hive简介

发表于 2021-04-08 更新于 2024-03-06 分类于 hive 阅读次数： Valine：
本文字数： 870 阅读时长 ≈ 1 分钟

hive简介

使用的版本是3.1.2

hive概念

hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库将HDFS中存储的结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。hive十分适合对数据仓库进行统计分析，其还支持UDF(User-Defined Function)、UDAF(User-Defined Aggregate Function)和UDTF(User-Defined Table-Generating Function)，可以实现对map和reduce函数的定制，为海量数据集的操作提供了良好的扩展性

本质就是将HQL转化为MapReduce程序

hive处理的数据存储在HDFS

hive分析数据的底层实现是MapReduce

hive执行程序运行在Yarn上

阅读全文 »

HTTP报文格式

发表于 2021-04-08 更新于 2024-06-05 分类于网络阅读次数： Valine：
本文字数： 2.8k 阅读时长 ≈ 3 分钟

HTTP报文格式

请求报文

<method> <url> <version>  都由空格分隔
<headers>

<requestbody>

请求行：包含请求方法、URI、HTTP版本信息 <方法> <空格> <URI> <空格> <HTTP版本>
请求头 <字段名>:<字段值> 可以有零个或多个请求头，请求头是以一个空行结束的
请求内容实体

阅读全文 »

消息队列的选型

发表于 2021-04-08 更新于 2024-03-06 分类于消息队列阅读次数： Valine：
本文字数： 294 阅读时长 ≈ 1 分钟

消息队列的选型

	ActiveMQ	RabbitMQ	RocketMQ	kafka
开发语言	java	erlang	java	scala
单机吞吐量	万级	万级	10万级	10万级
时效性	ms级	us级	ms级	ms级以内
可用性	高(主从架构)	高(主从架构)	非常高(分布式架构)	非常高(分布式架构)
功能特性	成熟的产品，在很多公司得到应用；有较多的文档；各种协议支持较好	基于erlang开发，所以并发能力很强，性能极其好，延时很低;管理界面较丰富	MQ功能比较完备，扩展性佳	只支持主要的MQ功能，像一些消息查询，消息回溯等功能没有提供，毕竟是为大数据准备的，在大数据领域应用广。
弊端	更新频率慢	使用erlang开发的，定制化比较困难

监听器

发表于 2021-04-07 更新于 2024-06-26 分类于 zookeeper 阅读次数： Valine：
本文字数： 486 阅读时长 ≈ 1 分钟

监听器

在启动zookeeper客户端时，会创建两个线程，一个负责网络连接通信(connect)，一个负责监听(listener)，通过connect线程将注册的监听事件发送给zookeeper，zookeeper会将注册的监听事件添加到注册监听列表中，如果zookeeper监听到数据或路径变化，就会将这个消息发送到listener线程，进而调用prcess()方法进行处理监听事件

阅读全文 »

zookeeper命令

发表于 2021-04-07 更新于 2023-07-31 分类于 zookeeper 阅读次数： Valine：
本文字数： 2.7k 阅读时长 ≈ 2 分钟

zookeeper命令

该版本为3.6.1版本，不同版本可能略有不同

zookeeper服务端启动之后，可以在客户端使用命令进行一系列操作

阅读全文 »

java后端开发的心酸历程，后端知识点太多太杂了，啥也得知道点。
愿IT圈无猝死、无ICU、无996；
愿程序员、产品经理、测试可以和睦相处；
愿bug无处可藏，慢慢变少

GitHub Gitee CSDN 掘金简书思否