0%

日志聚集

日志聚集功能默认是关闭的,需要在yarn-site.xml中配置

1
2
3
4
5
6
7
8
9
10
<!-- 开启日志聚集  默认false -->
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>
<!-- 保留时间 默认-1即不保留 -->
<property>
<name>yarn.log-aggregation.retain-seconds</name>
<value>3600</value>
</property>

该配置对于ResourceManager 和 NodeManager生效,所以这两个需要重启(即yarn重启)

历史服务器

在资源管理ResourceManager的web页面中有一个History,默认该链接无法访问

历史服务器

1
bin/mapred --daemon start historyserver

使用jps可以发现多了一个JobHistoryServer进程

阅读全文 »

三种运行模式

hadoop分为三种运行模式,分别为单机模式、伪分布式模式和完全分布式模式

阅读全文 »

过滤器Filter

依赖于servlet容器,基于函数回调,可以对请求和响应进行拦截,在访问后端资源之前,拦截这些来自客户端的请求,在发送回客户端之前,处理这些响应

过滤器的类型

  • 身份验证过滤器
  • 数据压缩过滤器
  • 加密过滤器
  • 触发访问事件资源的过滤器
  • 图像转换过滤器
  • 日志记录和审核过滤器
  • MIME-类型链过滤器
  • Tokenizing过滤器
  • 转换XML内容的XSL/T过滤器
阅读全文 »

操作Parquet

由于性能问题,将文件存储格式从text改为了Parquet,那么hadoop如何读取Parquet文件呢?

先添加一下parquet依赖

1
2
3
4
5
6
7
8
9
10
11
<!--添加Parquet依赖-->
<dependency>
<groupId>org.apache.parquet</groupId>
<artifactId>parquet-column</artifactId>
<version>1.8.1</version>
</dependency>
<dependency>
<groupId>org.apache.parquet</groupId>
<artifactId>parquet-hadoop</artifactId>
<version>1.8.1</version>
</dependency>
阅读全文 »