tencent cloud

文档反馈

IK 分词插件

最后更新时间:2020-09-10 15:07:30

    登录 腾讯云 Elasticsearch Service 控制台,选择一个集群,进入集群详情页的【插件列表】页面,可以看到系统默认插件中已经预装了 IK 中文分词插件。关于 IK 中文分词插件的介绍,详情可查看 IK Analysis for Elasticsearch,您可以利用该插件对存到 ES 集群数据中的中文关键词建立索引,实现搜索功能。

    更新词典

    单击【更新词典】,进入更新词典页面。有分词词典和停用词词典两项,单击【本地上传】,选择您需要更新的词典文件后,单击【保存】,即可热更新词典(不需要重启集群)。

    关于词典文件的要求及说明

    • 词典类型:有两类词,“分词词典”和“停用词词典”。“分词词典”中的词是用户在向 ES 集群存入数据,建立索引的时候,指定 IK 作为分词工具。如果存入的数据中时有这类词,就会建立索引,并能通过关键词查询搜索到。“停用词词典”则会刻意回避不建立索引的词。
    • 限制要求:对于词典文件,也有一些限制和要求,需要一行一个词,utf-8 编码。为了避免混淆,分词词典和停用词词典文件名不能重复。另外,因为词典文件会加载到内存中,所以对文件的大小和个数也做了一定的限制,单个文件最大为10M,上传文件总数最多为10个。
    • 更新过程:列表会展示历史已经更新上传的词典。新上传的词典,如果不符合要求,会直接限制上传。上传完成后,词典文件会显示成“待生效”状态。所有需要更新的词典上传完成后,单击【保存】,会保存到用户的集群并生效。如果有上传失败的文件,或不是 utf-8 格式的文件,会提示失败,需要删除失败的文件后,才能单击保存生效。
    联系我们

    联系我们,为您的业务提供专属服务。

    技术支持

    如果你想寻求进一步的帮助,通过工单与我们进行联络。我们提供7x24的工单服务。

    7x24 电话支持