博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
ik_max_word ik_smart
阅读量:7247 次
发布时间:2019-06-29

本文共 826 字,大约阅读时间需要 2 分钟。

打开 ~/es_root/config/elasticsearch.yml 文件,加入以下配置:

index:  analysis:    analyzer:      ik_syno:          type: custom          tokenizer: ik_max_word          filter: [my_synonym_filter]      ik_syno_smart:          type: custom          tokenizer: ik_smart          filter: [my_synonym_filter]    filter:      my_synonym_filter:          type: synonym          synonyms_path: analysis/synonym.txt

以上配置定义了 ik_syno 和 ik_syno_smart 这两个新的 analyzer,分别对应 IK 的 ik_max_word 和 ik_smart 两种分词策略。根据 IK 的文档,二者区别如下:

  • ik_max_word:会将文本做最细粒度的拆分,例如「中华人民共和国国歌」会被拆分为「中华人民共和国、中华人民、中华、华人、人民共和国、人民、人、民、共和国、共和、和、国国、国歌」,会穷尽各种可能的组合;
  • ik_smart:会将文本做最粗粒度的拆分,例如「中华人民共和国国歌」会被拆分为「中华人民共和国、国歌」;

ik_syno 和 ik_syno_smart 都会使用 synonym filter 实现同义词转换。为了方便后续测试,建议创建 ~/es_root/config/analysis/synonym.txt 文件,输入一些同义词并存为 utf-8 格式。例如:

ua,user-agent,userAgentjs,javascript

 

转载地址:http://egfbm.baihongyu.com/

你可能感兴趣的文章
iOS设备接入WiFi和3G网络安全性分析
查看>>
.NET领域驱动设计—初尝(三:穿过迷雾走向光明)
查看>>
iscsi Target (TGT)
查看>>
微软与VMWARE的桌面虚拟化简介
查看>>
基于hadoop2.7集群的Spark2.0,Sqoop1.4.6,Mahout0.12.2完全分布式安装
查看>>
B3-从http头中找到X-Forwarded-For发来的客户端ip 地址
查看>>
让榨汁机定时工作(C#+PLC)
查看>>
DNS服务
查看>>
关于广告
查看>>
现有书形成的网络职业知识体系
查看>>
窗体皮肤实现 - 增加Toolbar的交互性
查看>>
将Flex留言板搬家至Google App Engine的体会
查看>>
LeetCode:Add Two Numbers
查看>>
Creating and Using a Static Library
查看>>
Oracle RAC 11gR2数据库单节点linux操作系统无法启动
查看>>
java20 创建服务器:ServerSocket
查看>>
性能监控(PAL工具)
查看>>
Linux内核跟踪之syscall tracer 【转】
查看>>
深入浅出多线程系列之三:线程池
查看>>
最简单的windows平台Git服务器---Gitstack 【转】
查看>>