0%

验证xml格式

目前有两种为XML文档定义语义约束的方式:一种是采用DTD作为语义约束;一种是采用 XML Schema作为语义约束

DTD验证

可以使用DTD来定义XML文档的合法构建模块。DTD可以写在文档内部,也可以另外写一个文件

DTD约束简单易用,但是功能较弱

在XML文档中引入DTD主要有三种方式

  • 内部DTD
  • 外部DTD
  • 公用DTD

内部DTD

内部DTD就是将DTD与XML数据定义放在同一份文档中

1
2
3
4
5
6
7
8
9
10
11
12
13
<?xml version="1.0"?>
<!DOCTYPE note [
<!ELEMENT note (to,from,body)>
<!ELEMENT to (#PCDATA)>
<!ELEMENT from (#PCDATA)>
<!ELEMENT body (#PCDATA)>
]>

<note>
<to>ll</to>
<from>zh</from>
<body>hello</body>
</note>
阅读全文 »

数据清洗

数据清洗又称为ETL,在运行核心业务MapReduce程序之前,往往要先对数据进行清洗,清理掉不符合用户要求的数据。清理的过程往往只需要运行Mapper程序,不需要运行Reducer程序

当不需要reduce时,需要将reduceTask个数设为0,job.setNumReduceTasks(0)

ReduceTask工作机制

ReduceTask执行过程中按照Copy阶段——>Merge阶段——>Sort阶段——>Reduce阶段

JMS

Java消息服务(JMS)定义了java中一组创建、发送、接收和读取消息的应用程序接口,是J2EE的消息服务规范,类似于JDBC,使得java程序能够很好地与不同厂商的消息组件进行通信。

消息系统是用来为各个应用程序提供可靠的异步通信服务。解耦合性,发送方的请求发送到消息系统,再由消息系统转发给接收方。

JMS支持两种消息类型PTP和Pub/Sub。

阅读全文 »

MapTask工作机制

MapTask执行过程中按照Read阶段——>Map阶段——>Collect阶段——>溢写阶段——>Combine阶段