跳到主要内容

NGRAM_SEARCH

描述

NGRAM_SEARCH 函数用于计算两个字符串的 N-gram 相似度。相似度范围为 0 到 1,值越大表示字符串越相似。

N-gram 是将字符串分解为连续 N 个字符的集合。相似度计算公式为:2 * |交集| / (|集合1| + |集合2|)

仅支持 ASCII 字符。

语法

NGRAM_SEARCH(<text>, <pattern>, <gram_num>)

参数

参数说明
<text>需要比较的文本字符串。类型:VARCHAR
<pattern>模式字符串(必须为常量)。类型:VARCHAR
<gram_num>N-gram 的 N 值(必须为常量)。类型:INT

返回值

返回 DOUBLE 类型,为两个字符串的 N-gram 相似度(0 到 1 之间)。

特殊情况:

  • 如果任意参数为 NULL,返回 NULL
  • 如果字符串长度小于 <gram_num>,返回 0
  • <pattern><gram_num> 必须为常量
  • 相似度为 1 不一定表示字符串完全相同

示例

  1. 基本用法:计算相似度
SELECT ngram_search('123456789', '12345', 3);
+---------------------------------------+
| ngram_search('123456789', '12345', 3) |
+---------------------------------------+
| 0.6 |
+---------------------------------------+
  1. 高相似度示例
SELECT ngram_search('abababab', 'babababa', 2);
+-----------------------------------------+
| ngram_search('abababab', 'babababa', 2) |
+-----------------------------------------+
| 1 |
+-----------------------------------------+
  1. 字符串过短返回 0
SELECT ngram_search('ab', 'abc', 3);
+----------------------------------+
| ngram_search('ab', 'abc', 3) |
+----------------------------------+
| 0 |
+----------------------------------+
  1. NULL 值处理
SELECT ngram_search(NULL, 'test', 2);
+--------------------------------+
| ngram_search(NULL, 'test', 2) |
+--------------------------------+
| NULL |
+--------------------------------+

Keywords

NGRAM_SEARCH,NGRAM,SEARCH