Elasticsearch 映射参数
analyzer
定义文本字段的分词器,默认对索引和查询都是有效的。
假设不用分词器,我们先来看一下索引的结果,创建一个索引并添加一个文档。
1 | PUT blog |
查看词条向量(term vectors)
1 | GET blog/_termvectors/1 |
查看结果如下:
1 | { |
可以看到,默认情况下,中文就是一个字一个字的分,这种分词方式没有任何意义。如果这样分词,查询就只能一个字一个字来查,如下,这样查询没有任何意义。
1 | GET blog/_search |
所以我们要根据实际情况,配置合适的分词器。
给字段设定分词器。
1 | PUT blog |
存储文档
1 | PUT blog/_doc/1 |
查看词条向量。
1 | GET blog/_termvectors/1 |
结果如下:
1 | { |
然后就可以通过词去搜索了。
1 | GET blog/_search |
search_analyzer
查询时候的分词器。默认情况下,如果没有配置 search_analyzer ,则查询时首先查看有没有 search_analyzer ,有的话,就用 search_analyzer 来进行分词,如果没有,则看看有没有 analyzer ,如果有,则用 analyzer 进行分词。否则使用 ES 默认的分词器。
1 | PUT blog |
normalizer
normalizer 参数用于解析前(索引或查询)的标准化配置。
比如说,在 ES 中,对于一些我们不想切分的字符串,我们会通常将其设为 keyword,搜索时也是使用整个词进行搜索。
比如 如果在索引前没有做好数据清洗,导致大小写不一致,例如 SakuraTears 和 sakuratears ,此时,我们就可以使用 normalizer 在索引之前以及查询之前进行文档的标准化。
反例,创建一个名为blog的索引,设置 author 字段类型为 keyword
1 | PUT blog |
添加两个文档,大小写不一致。
1 | PUT blog/_doc/1 |
然后进行搜索。
1 | GET blog/_search |
可以看到只能搜索到一个文档,受字母大小写影响。
如果使用 normalizer,可以在索引和查询时分别对文档进行预处理。
normalizer定义方式如下:
1 | PUT blog |
在 settings 中定义 normalizer ,然后在 mappings 中引用。
测试方式和前面一致,可以看到此时大小写都可以查出两个文档。
因为无论索引还是查询,都会将大写转为小写。
boost
boost 参数可以设置字段的权重。
boost有两种使用思路,一种就是在定义mappings的时候使用,在指定字段类型时使用;另一种就是在查询时使用。
实际开发中建议使用后者,前者有问题:如果不重新索引文档,权重无法更改。
- mappings 中使用 boost(不推荐):
1 | PUT blog |
- 查询时指定boost:
1 | GET blog/_search |
coerce
coerce 用来清除脏数据,默认为true。
例如一个数字,在 JSON 中,用户可能写错了:
1 | {"age":"99"} |
或者
1 | {"age":"99.0"} |
这些都不是正确的数字格式。
通过coerce 可以解决该问题。
默认情况下,以下操作没问题,就是 coerce 在起作用。
1 | PUT blog |
如果需要修改 coerce ,方式如下:
1 | PUT blog |
当 coerce 设为 false 后 ,age 字段传入 数字字符串就会报错。
copy_to
这个属性可以将多个字段的值,复制到同一个字段中。
定义方式如下:
1 | PUT blog |
添加文档:
1 | PUT blog/_doc/1 |
查询:
1 | GET blog/_search |
doc_values 和 fielddata
ES 中的搜索主要是用到倒排索引,doc_values 参数是为了加快排序、聚合操作而生的。当建立倒排索引的时候,会额外增加列式存储映射。
doc_values 默认是开启的,如果确定某个字段不需要排序或者不需要聚合,那么可以关闭doc_values 以节省空间。
大部分的字段在索引时都会生成 doc_values,除了 text 。 text 字段在查询时会生成一个fielddata 的数据结构,fielddata 在字段首次被 聚合、排序的时候生成。
doc_values | fielddata |
---|---|
索引时创建 | 使用时动态创建 |
磁盘 | 内存 |
不占用内存 | 不占用磁盘 |
索引速度稍低 | 文档很多时,动态创建慢,占内存 |
doc_values 默认开启,fielddata默认关闭。
doc_values 举例:
1 | PUT user |
由于 doc_values 默认开启的,所以可以直接使用 age 进行排序,如果想关闭 doc_values ,如下:
1 | PUT user |
dynamic
dynamic 有三种取值:
- true : 默认,自动添加新字段。
- false: 忽略新字段。
- strict: 严格模式,发现新字段,会抛出异常。
见学习笔记 (7)
enabled
ES 默认会索引所有的字段,但是有的字段可能只需要存储,不需要索引。此时可以通过 enabled 来进行控制。
1 | PUT blog |
设置了 enabled 为 false 之后,就不可以通过 该字段搜索了。
format
日期格式。format 规范日期格式,而且一次可以定义多个 format。
1 | PUT user |
多个日期格式之间使用
||
符号连接,注意没有空格。如果用户没有指定日期的format,默认的日期格式 是
strict_date_optional_time||epoch_mills
另外,所有的日期格式都可以在 https://www.elastic.co/guide/en/elasticsearch/reference/current/mapping-date-format.html 网址查看。
ignore_above
ignore_above 用于指定分词和索引的字符串最大长度,超过最大长度的话,该字段将不会被索引,这个字段只适用于 keyword 类型。
1 | PUT blog |
上例中 查询 sakuratears 是无结果的,因为其未被索引,但是文档是存在的。
ignore_malformed
ignore_malformed 可以忽略不规则的数据,该参数默认为 false 。
1 | PUT users |
doc 2 可以被存储,不会出错,但是 abc 不能被索引。
include_in_all
这个是针对 _all
字段的,但是在 ES7 中,该字段已经被废弃了。
替代品是 copy_to , 原先ES 会将所有字段存储在一个叫 xxx_all
字段里,当我们只知道词,并不知道其属于哪个 field,ES查询的时候会方便。
index
index 指定一个字段是否被索引。该属性为true表示该字段被索引,false表示该字段不被索引。
1 | PUT users |
查询会报错,提示age字段未被索引。index 为 false,不能通过对应的字段搜索。
index_options
index_options 控制索引时哪些信息被存储到倒排索引中(用在text字段中),有四种取值:
index_options | 备注 |
---|---|
docs | 只存储文档编号,默认 |
freqs | 在 docs的基础上,存储词项频率 |
positions | 在 freqs基础上,存储词项偏移位置 |
offsets | 在positions基础上,存储词项开始和结束的字符位置 |
norms
norms 对字段评分有用,text上默认开启 norms,如果不是特别需要,不要开启norms。
null_value
在 ES 中,值为 null 的字段,不索引也不可以被搜索,null_value 可以让值为 null 的字段显式的可索引、可搜索。
1 | PUT users |
相当于用 “-” 字符串去代替null。
position_increment_gap
被解析的text字段会将 term 的位置考虑进去,目的是为了支持近似查询和短语查询,当我们去索引一个含有多个值的text字段时,会在各个值之间添加一个假想的空间,将值隔开,这样就可以避免一些无意义的短语匹配,间隔大小通过 position_increment_gap 来控制,默认是100.
1 | PUT users |
- san Li 搜索不到,因为两个短语之间有一个假想的空隙,为100。
1 | GET users/_search |
可以通过 slop 指定容忍的空隙大小。
也可以在定义索引的时候指定空隙:
1 | PUT users |
properties
略
similarity
similarity 指定文档的评分模型,默认有三种。
similarity | 备注 |
---|---|
BM25 | ES和Lucene默认的评分模型 |
classic | TF/IDF 评分 |
boolean | boolean 评分模型 |
store
默认情况下,字段会被索引,也可以搜索,但是不会存储。虽然不会被存储,但是 _source
中有一个字段的备份。
如果想将字段存储下来,可以通过配置 store 来实现。
term_vector
term_vector 是通过分词器产生的信息,包括:
- 一组 terms
- 每个 term 的位置
- term 的首字符/尾字符与原始字符串原点的偏移量
term_vector 取值如下:
term_vector | 备注 |
---|---|
no | 不存储信息,默认 |
yes | term被存储 |
with_positions | 在yes的基础上增加位置信息 |
with_offsets | 在yes的基础上增加偏移信息 |
with_positions_offsets | term、位置、偏移信息都存储 |
fields
fields 参数可以让同一字段有多种不同的索引方式。例如:
1 | PUT blog |
Mapping 参数 地址 : https://www.elastic.co/guide/en/elasticsearch/reference/current/mapping-params.html
Elasticsearch 映射模板
ES 中有动态映射,但有的时候默认的动态映射规则并不能满足我们的需求,这个时候可以通过映射模板来解决。
例子,将所有的数字默认映射为integer。
1 | PUT blog |
存储完成后,默认会被识别为long类型的数据,现在就被识别为integer了。
例子:
1 | PUT blog |
- num_count 字段为字符串 99 ,会进入 匹配逻辑,99变为 integer。
- num_text 满足unmatch ,不会变为 integer,按照默认的text处理
- num_aaa 字段为 999,不是字符串,不进入匹配逻辑,按默认的long处理。
结果如下:
1 | { |