【专题】字典树

简介

字典树又称单词查找树,Trie树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串)。优点是利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比哈希树高。

Trie

字典树的结构如下:

trie

字典树用边来代表字母,而从根结点到树上某一结点的路径就代表了一个字符串。这颗字典树包含的字符串有{"in", "inn", "int", "tea", "ten", "to"}。

Trie的结构非常好懂,我们用\(\delta(u, c)\)表示结点u的c字符指向的下一个结点,或着说是结点u代表的字符串后面添加一个字符c形成的字符串的结点。(c的取值范围和字符集大小有关,不一定是0~26)。有时需要标记插入进 trie 的是哪些字符串,每次插入完成时在这个字符串所代表的节点处打上标记即可。

Trie一般支持两个操作:

  1. 插入操作,就是将一个字符串s加入到集合中。
  2. 查询操作,就是查询一个字符串S是不是在集合中。

实现代码如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
void insert(char *s, int n)
{
int p = 0;
for (int i=0; i<n; i++)
{
int c = s[i] - 'a';
if (!tree[p][c]) tree[p][c] = ++cnt;
p = tree[p][c];
}
exist[p]++;
}

int search(char *s, int n)
{
int p = 0;
for (int i=0; i<n; i++)
{
int c = s[i] - 'a';
if (!tree[p][c]) return 0;
p = tree[p][c];
}
return exist[p];
}

模板

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
char s[mxn];
int tree[100000][26], exist[100000], cnt = 0;

void insert(char *s, int n)
{
int p = 0;
for (int i=0; i<n; i++)
{
int c = s[i] - 'a';
if (!tree[p][c]) tree[p][c] = ++cnt;
p = tree[p][c];
}
exist[p]++;
}

int search(char *s, int n)
{
int p = 0;
for (int i=0; i<n; i++)
{
int c = s[i] - 'a';
if (!tree[p][c]) return 0;
p = tree[p][c];
}
return exist[p];
}

int main()
{
int n, m; scanf("%d %d", &n, &m);
for(int i=0; i<n; i++){
scanf("%s", s);
insert(s, strlen(s));
}
for(int i=0; i<m; i++){
scanf("%s", s);
printf("%d\n", search(s, strlen(s)));
}
return 0;
}