操作Parquet
由于性能问题,将文件存储格式从text改为了Parquet,那么hadoop如何读取Parquet文件呢?
先添加一下parquet依赖
1 | <!--添加Parquet依赖--> |
由于性能问题,将文件存储格式从text改为了Parquet,那么hadoop如何读取Parquet文件呢?
先添加一下parquet依赖
1 | <!--添加Parquet依赖--> |
Elasticsearch通过使用事务日志(transaction log)来解决事务问题,事务日志用来保存所有未提交的事务,当有错误发生时,事务日志将会被检查,必要时会再次执行某些操作,以确保没有丢失任何更改。事务日志中的信息与存储介质之间的同步(同时清空事务日志)被称为事务日志刷新(flushing)。
1 | 除了可以自动刷新还可以使用api手动刷新 |
事务日志配置
Elasticsearch中提供了查询二次评分机制,能对查询的返回文档的前若干个文档重新打分。
其过程是先取得某个查询的命中文档的前N个,然后执行某个公式为这些文档重新打分
如下示例
1 | { |
此时文档的得分就会变成publishTime字段的值再加上原本查询的得分