后缀数组 - 洛谷保存站

主页搜索最近更新统计数据申请密钥返回旧前端登录账号

最后更新于 2025-08-03 10:38:18

作者

panyf

分类个人记录

定义

后缀数组主要是两个数组 $sa$ 和 $rk$。

$sa_i$ 表示字典序第 $i$ 小的后缀编号。

$rk_i$ 表示编号为 $i$（以第 $i$ 个字符开头）的后缀字典序排名。

显然有 $sa_{rk_i}=rk_{sa_i}=i$。

倍增求后缀数组

如何求后缀数组？

考虑倍增。

先将所有长度为 $1$ 的字符串（即每个字符）排序。

考虑当前将长度为 $w$ 的字符串排好序。

那么如何将长度为 $2w$ 的字符串排序？

只需要按 ${rk_w}[i]$ 为第一关键字，按 ${rk_w}[i+w]$ 为第二关键字排序即可。

可以用计数排序优化。

当不存在排名相同的字符串时结束即可。

时间复杂度 $O(n\log n)$，空间 $O(n)$。

有更优秀的做法可以 $O(n)$ 求后缀数组，见 OI Wiki。

后缀排序

只需要用后缀数组进行后缀排序，不需要 height 数组的题目。

P6095 [JSOI2015]串分割

height 数组

后缀数组有什么用？

只需要进行后缀排序的题目其实很少，大部分题目中还需要求一个 height 数组。

lcp 是最长公共前缀的缩写，以下 $lcp(i,j)$ 表示后缀 $i$ 和后缀 $j$ 的最长公共前缀的长度。

height 数组的定义：$h_i=lcp(sa_i,sa_{i-1})$ 其中 $2\leq i\leq n$。

一个引理：$h_{rk_i}\geq h_{rk_{i-1}}-1$

证明：若 $h_{rk_{i-1}}\leq 1$，显然。

若 $h_{rk_{i-1}}>1$，那么后缀 $i-1$ 和 $sa_{rk_{i-1}-1}$ 存在一个长度为 $h_{rk_{i-1}}$ 的公共前缀。

所以后缀 $i$ 和 $sa_{rk_{i-1}-1}+1$ 存在一个长度为 $h_{rk_{i-1}}-1$ 的公共前缀。

并且因为后缀 $i-1$ 大于后缀 $sa_{rk_{i-1}-1}$，所以后缀 $i$ 大于后缀 $sa_{rk_{i-1}-1}+1$。

又因为 $lcp(sa_i,sa_j)=\min_{k=i+1}^j lcp(sa_{k-1},sa_k)$（这个接下来会证），所以 $lcp(i,sa_{rk_i-1})\geq lcp(i,sa_{rk_{i-1}-1}+1)\geq h_{rk_{i-1}}-1$。

知道这个引理之后，按 $i$ 从小到大暴力求 $h_{rk_i}$ 即可，因为每次最多减 $1$，所以均摊是 $O(n)$ 的。

模板题：#35. 后缀排序提交记录

#include<bits/stdc++.h>
using namespace std;
const int N=1e5+3;
char s[N];
int sa[N],u[N],v[N],t[N],h[N]; 
int main(){
	int*rk=u,*b=v,n,m=131,i,j,k=0,x,y;
 	scanf("%s",s+1),n=strlen(s+1);
   	//m=131,k=0,memset(t,0,m*4+4),u[n+1]=v[n+1]=0;
   	//多测时加上
	for(i=1;i<=n;++i)++t[s[i]];
	for(i=1;i<=m;++i)t[i]+=t[i-1];
	for(i=n;i;--i)sa[t[rk[i]=s[i]]--]=i;//对长度为1的字符串排序
	for(i=1;k<n;m=k,i*=2){//不同的串数量等于n时停止
		for(memset(t,0,m*4+4),j=n-i+1,k=0;j<=n;++j)b[++k]=j;//这里b[i]表示第二关键字为i的编号
		for(j=1;j<=n;++j)if(++t[rk[j]],sa[j]>i)b[++k]=sa[j]-i;
		for(j=1;j<=m;++j)t[j]+=t[j-1];
		for(j=n;j;--j)sa[t[rk[b[j]]]--]=b[j];//计数排序，rk[i]为编号i的第一关键字
		for(swap(rk,b),j=1,k=y=0;j<=n;++j,y=x)x=sa[j],rk[x]=b[x]==b[y]&&b[x+i]==b[y+i]?k:++k;
        	//这里b数组表示第一关键字，rk数组表示下一次排序的第一关键字
            //b[x+i]不会越界，因为如果b[x]=b[y]，就意味着x+i-1和y+i-1都<=n
            //注意有可能访问到b[n+1]，所以对于多测的题目要将u[n+1]和v[n+1]置为0
	}
	for(i=1,k=0;i<=n;printf("%d ",sa[i]),h[rk[i++]]=k)if(rk[i]>1)//特判h[1]
	for(k=max(0,k-1),j=sa[rk[i]-1];s[i+k]==s[j+k];++k);//求h，注意可能访问到s[n+1]，但通常s[n+1]值为0不会有影响
	for(i=2,puts("");i<=n;++i)printf("%d ",h[i]);
	return 0;
}