后缀树 - VisuAlgo

后缀树是一个压缩树，包含了给定（通常很长）文本字符串T的所有后缀，长度为n个字符（n可以达到几十万个字符的数量级）。

文本字符串T中每个后缀的位置以整数索引的形式记录在后缀树的叶子节点上，而叶子节点的路径标签（从根开始的边标签的连接）描述了后缀。

后缀树为许多重要的（长）字符串操作提供了特别快的实现。

这种数据结构与后缀数组数据结构非常相关。这两种数据结构通常一起研究。

Remarks: By default, we show e-Lecture Mode for first time (or non logged-in) visitor.
If you are an NUS student and a repeat visitor, please login.

→

🕑

后缀 i（或第 i 个后缀）是一个（通常很长的）文本字符串 T 的一个'特殊情况'的子字符串，它从字符串的第 i 个字符开始，一直到它的最后一个字符。

例如，如果 T = "STEVEN$"，那么 T 的后缀 0 是 "STEVEN$"（0-based indexing），后缀 2 是 "EVEN$"，后缀 4 是 "EN$"，等等。

Pro-tip 1: Since you are not logged-in, you may be a first time visitor (or not an NUS student) who are not aware of the following keyboard shortcuts to navigate this e-Lecture mode: [PageDown]/[PageUp] to go to the next/previous slide, respectively, (and if the drop-down box is highlighted, you can also use [→ or ↓/← or ↑] to do the same),and [Esc] to toggle between this e-Lecture mode and exploration mode.

←

→

🕑

字符串T的后缀树的可视化基本上是一个根树，其中从根到每个叶子的路径标签（边缘标签的连接）描述了T的一个后缀。每个叶子顶点都是一个后缀，叶子顶点内部写着的整数值（我们通过终止符号$确保这个属性）是后缀编号。

一个内部顶点将分支到多个子顶点，因此从根到叶子通过这个内部顶点有多个后缀。内部顶点的路径标签是那些后缀中的公共前缀。

Pro-tip 2: We designed this visualization and this e-Lecture mode to look good on 1366x768 resolution or larger (typical modern laptop resolution in 2021). We recommend using Google Chrome to access VisuAlgo. Go to full screen mode (F11) to enjoy this setup. However, you can use zoom-in (Ctrl +) or zoom-out (Ctrl -) to calibrate this.

←

→

🕑

The Suffix Tree above is built from string T = "GATAGACA$" that have these 9 suffixes:

i	Suffix
0	GATAGACA$
1	ATAGACA$
2	TAGACA$
3	AGACA$
4	GACA$
5	ACA$
6	CA$
7	A$
8	$

Now verify that the path labels of suffix 7/6/2 are "A$"/"CA$"/"TAGACA$", respectively (there are 6 other suffixes). The internal vertices with path label "A"/"GA" branch out to 4 suffixes {7, 5, 3, 1}/2 suffixes {4, 0}, respectively. Root vertex branches out to all 9 suffixes.

Pro-tip 3: Other than using the typical media UI at the bottom of the page, you can also control the animation playback using keyboard shortcuts (in Exploration Mode): Spacebar to play/pause/replay the animation, ←/→ to step the animation backwards/forwards, respectively, and -/+ to decrease/increase the animation speed, respectively.

←

→

🕑

为了确保输入字符串 T 的每个后缀都以叶子顶点结束，我们强制字符串 T 以一个特殊的终止符号 '$' 结束，这个符号在原始字符串 T 中没有使用，并且其ASCII值低于 T 中允许的最低字符（在这个可视化中是字符 'A'）。这样，边标签 '$' 总是出现在这个后缀树可视化的根顶点的最左边的边。

对于上面的后缀树示例（对于 T = "GATAGACA$"），如果我们没有终止符号 '$'，注意到后缀 7 "A"（没有 '$'）并没有在叶子顶点结束，这可能会使后续的一些操作变得复杂。

←

→

🕑

由于我们确保所有后缀都以叶子顶点结束，因此在后缀树中最多有n个叶子/后缀。所有内部顶点（包括根顶点，如果它是内部顶点）总是分支，因此最多可以有n-1个这样的顶点，如右侧的极端测试案例所示。

因此，后缀树中顶点的最大数量 = n（叶子）+ (n-1) 内部顶点 = 2n-1 = O(n) 顶点。由于后缀树是一棵树，后缀树中边的最大数量也是 (2n-1)-1 = O(n) 边。

←

→

🕑

当字符串T中的所有字符都是不同的（例如，T = "ABCDE$")，我们可以得到以下非常短的后缀树，其中恰好有n+1个顶点（+1是由于根顶点）。

←

→

🕑

此可视化中可用的所有后缀树操作如下：

构建后缀树（即时/详细信息省略） —— 从字符串T即时构建后缀树。
搜索 —— 在后缀树中找到路径标签包含（通常较短的）模式/搜索字符串P的（通常较长的）字符串T的顶点。
最长重复子串（LRS） —— 找到最深（路径标签最长）的内部顶点（因为该顶点在T的两个（或更多）后缀之间共享公共前缀）。
最长公共子串（LCS） —— 找到包含来自两个不同原始字符串的后缀的最深的内部顶点。

后缀树还有一些其他可能的操作，这些操作未包含在此可视化中。

←

→

🕑

In this visualization, we only show the fully constructed Suffix Tree without describing the details of the O(n) Suffix Tree construction algorithm — it is a bit too complicated. Interested readers can explore this instead.

We limit the input to only accept 25 (cannot be too long due to the available drawing space — but in the real application of Suffix Tree, n can be in order of hundred thousand to million characters) ASCII (or even Unicode) characters. If you do not write a terminating symbol '$' at the back of your input string, we will automatically do so. If you place a '$' in the middle of the input string, they will be ignored. And if you enter an empty input string, we will resort to the default "GATAGACA$".

For convenience, we provide a few classic test case input strings usually found in Suffix Tree/Array lectures, but to showcase the strength of this visualization tool, you are encouraged to enter any 25-characters string of your choice (ending with character '$'). You can use Chinese characters, e.g., "四是四十是十十四不是四十四十不是十四$".

←

→

🕑

假设已经构建了一个（通常较长的）字符串T（长度为n）的后缀树，我们想要找到模式/搜索字符串P（长度为m）的所有出现位置。

为了做到这一点，我们在T的后缀树中寻找顶点x，该顶点的路径标签（从根到x的边标签的连接）的前缀是P。一旦我们找到这个顶点x，在x为根的子树中的所有叶子都是出现的位置。

时间复杂度：O(m+k)，其中k是出现的总次数。

例如，在上面的T = "GATAGACA$"的后缀树中，尝试以下情况：

P与顶点x的路径标签完全匹配：
Search("A")，出现次数 = {7, 5, 3, 1} 或 Search("GA")，出现次数 = {4, 0}
P与顶点x的路径标签部分匹配：
Search("T")，出现次数 = {2} 或 Search("GAT")，出现次数 = {0}
P在T中未找到：
Search("WALDO")，出现次数 = {NIL}

←

→

🕑

假设已经构建了一个（通常较长的）字符串T（长度为n）的后缀树，我们可以通过简单地找到T的后缀树中最深的（路径标签最长的）内部顶点来找到T中的最长重复子字符串（LRS）。

这是因为T的后缀树的每个内部顶点至少分支到两个（或更多）后缀，即，路径标签（这些后缀的公共前缀）是重复的。

最深的（路径标签最长的）内部顶点就是所需的答案，可以通过简单的树遍历在O(n)中找到。

言归正传，试试 LRS("GATAGACA$")。我们有 LRS = "GA"。

有可能T包含多个 LRS，例如，试试 LRS("BANANABAN$")。
我们有 LRS = "ANA"（实际上重叠）或 "BAN"（无重叠）。

←

→

🕑

这次，我们需要两个以符号 '$'/'#' 结束的输入字符串 T1 和 T2。然后我们在 O(n) 时间内创建这两个字符串 T1+T2 的广义后缀树，其中 n = n1+n2（两个字符串长度的总和）。我们可以通过简单地找到 T1+T2 的广义后缀树中最深的且有效的内部顶点，来找到这两个字符串 T1 和 T2 的最长公共子串（LCS）。

要成为一个有效的内部顶点并被考虑为 LCS 候选者，一个内部顶点必须代表来自两个字符串的后缀，即，在 T1 和 T2 中都找到的公共子串。

然后，由于 T 的后缀树的内部顶点至少分支到两个（或更多）后缀，即，路径标签（这些后缀的公共前缀）是重复的。如果那个内部顶点也是一个有效的内部顶点，那么它就是一个重复的公共子串。

有效且最深（路径标签最长）的内部顶点就是我们需要的答案，可以通过简单的树遍历在 O(n) 时间内找到。

言归正传，尝试在字符串 T1 = "GATAGACA$" 和 T2 = "CATA#" 的广义后缀树上点击 LCS(T1,T2)（注意 UI 将切换到广义后缀树版本）。我们得到的 LCS = "ATA"。

←

→

🕑

我们可以使用后缀树做一些其他事情，如"找到最长的不重叠重复子字符串"，"找到≥ 2个字符串的最长公共子字符串"等，但我们将留到以后再讨论。

我们将继续讨论这个特定于字符串的数据结构，转向更通用的后缀数组数据结构。

You have reached the last slide. Return to 'Exploration Mode' to start exploring!

Note that if you notice any bug in this visualization or if you want to request for a new visualization feature, do not hesitate to drop an email to the project leader: Dr Steven Halim via his email address: stevenhalim at gmail dot com.

←

🕑

建立后缀树。

搜索

最长的重复子串。

最长的公共子串。

关于团队使用条款
 隐私政策

关于

VisuAlgo最初由副教授Steven Halim于2011年构思，旨在通过提供自学、互动式学习平台，帮助学生更深入地理解数据结构和算法。

VisuAlgo涵盖了Steven Halim博士与Felix Halim博士、Suhendry Effendy博士合著的书《竞技编程》中讨论的许多高级算法。即使过去十年，VisuAlgo仍然是可视化和动画化这些复杂算法的独家平台。

虽然VisuAlgo主要面向新加坡国立大学（NUS）的学生，包括各种数据结构和算法课程（例如CS1010/等价课程，CS2040/等价课程（包括IT5003），CS3230，CS3233和CS4234），但它也是全球好奇心的宝贵资源，促进在线学习。

最初，VisuAlgo并不适用于智能手机等小触摸屏，因为复杂的算法可视化需要大量的像素空间和点击拖动交互。为了获得最佳用户体验，建议使用最低分辨率为1366x768的屏幕。然而，自2022年4月以来，VisuAlgo的移动（精简）版本已经推出，使得在智能手机屏幕上使用VisuAlgo的部分功能成为可能。

VisuAlgo仍然在不断发展中，正在开发更复杂的可视化。目前，该平台拥有24个可视化模块。

VisuAlgo配备了内置的问题生成器和答案验证器，其“在线测验系统”使学生能够测试他们对基本数据结构和算法的理解。问题根据特定规则随机生成，并且学生提交答案后会自动得到评分。随着越来越多的计算机科学教师在全球范围内采用这种在线测验系统，它可以有效地消除许多大学标准计算机科学考试中手工基本数据结构和算法问题。通过给通过在线测验的学生分配一个小但非零的权重，计算机科学教师可以显著提高学生对这些基本概念的掌握程度，因为他们可以在参加在线测验之前立即验证几乎无限数量的练习题。每个VisuAlgo可视化模块现在都包含自己的在线测验组件。

VisuAlgo已经被翻译成三种主要语言：英语、中文和印尼语。此外，我们还用各种语言撰写了关于VisuAlgo的公开笔记，包括印尼语、韩语、越南语和泰语：

id, kr, vn, th.

团队

项目领导和顾问（2011年7月至今）
Associate Professor Steven Halim, School of Computing (SoC), National University of Singapore (NUS)
Dr Felix Halim, Senior Software Engineer, Google (Mountain View)

本科生研究人员 1
CDTL TEG 1: Jul 2011-Apr 2012: Koh Zi Chun, Victor Loh Bo Huai

最后一年项目/ UROP学生 1
Jul 2012-Dec 2013: Phan Thi Quynh Trang, Peter Phandi, Albert Millardo Tjindradinata, Nguyen Hoang Duy
Jun 2013-Apr 2014 Rose Marie Tan Zhao Yun, Ivan Reinaldo

本科生研究人员 2
CDTL TEG 2: May 2014-Jul 2014: Jonathan Irvin Gunawan, Nathan Azaria, Ian Leow Tze Wei, Nguyen Viet Dung, Nguyen Khac Tung, Steven Kester Yuwono, Cao Shengze, Mohan Jishnu

最后一年项目/ UROP学生 2
Jun 2014-Apr 2015: Erin Teo Yi Ling, Wang Zi
Jun 2016-Dec 2017: Truong Ngoc Khanh, John Kevin Tjahjadi, Gabriella Michelle, Muhammad Rais Fathin Mudzakir
Aug 2021-Apr 2023: Liu Guangyuan, Manas Vegi, Sha Long, Vuong Hoang Long, Ting Xiao, Lim Dewen Aloysius

本科生研究人员 3
Optiver: Aug 2023-Oct 2023: Bui Hong Duc, Oleh Naver, Tay Ngan Lin

最后一年项目/ UROP学生 3
Aug 2023-Apr 2024: Xiong Jingya, Radian Krisno, Ng Wee Han, Tan Chee Heng
Aug 2024-Apr 2025: Edbert Geraldy Cangdinata, Huang Xing Chen, Nicholas Patrick

List of translators who have contributed ≥ 100 translations can be found at statistics page.

致谢
NUS教学与学习发展中心（CDTL）授予拨款以启动这个项目。在2023/24学年，Optiver的慷慨捐赠将被用来进一步开发 VisuAlgo。

使用条款

VisuAlgo慷慨地向全球计算机科学界提供免费服务。如果您喜欢VisuAlgo，我们恳请您向其他计算机科学学生和教师宣传它的存在。您可以通过社交媒体平台（如Facebook、YouTube、Instagram、TikTok、Twitter等）、课程网页、博客评论、电子邮件等方式分享VisuAlgo。

数据结构与算法（DSA）的学生和教师可以直接在课堂上使用本网站。如果您从本网站截取屏幕截图或视频，可以在其他地方使用，但请引用本网站的URL（https://visualgo.net）和/或下面的出版物列表作为参考。但请不要下载VisuAlgo的客户端文件并将其托管在您的网站上，因为这构成了抄袭行为。目前，我们不允许他人分叉此项目或创建VisuAlgo的变体。个人使用离线副本的客户端VisuAlgo是可以接受的。

请注意，VisuAlgo的在线测验组件具有重要的服务器端元素，保存服务器端脚本和数据库并不容易。目前，普通公众只能通过“培训模式”访问在线测验系统。“测试模式”提供了一个更受控制的环境，用于在新加坡国立大学的真实考试中使用随机生成的问题和自动验证。

出版物列表

这项工作曾在2012年国际大学生程序设计竞赛（波兰，华沙）的CLI研讨会上和2012年国际信息学奥林匹克竞赛（意大利，锡尔米奥内-蒙蒂基亚里）的IOI会议上展示过。您可以点击此链接阅读我们2012年关于该系统的论文（当时还没有称为VisuAlgo），以及此链接阅读2015年的简短更新（将VisuAlgo与之前的项目关联起来）。

错误报告或新功能请求

VisuAlgo并不是一个完成的项目。Steven Halim副教授仍在积极改进VisuAlgo。如果您在使用VisuAlgo时发现任何可视化页面/在线测验工具中的错误，或者您想要请求新功能，请联系Steven Halim副教授。他的联系方式是将他的名字连接起来，然后加上gmail dot com。

隐私政策

版本 1.2 (更新于2023年8月18日星期五)。

自2023年8月18日（星期五）起，我们不再使用 Google Analytics。因此，我们现在使用的所有 cookies 仅用于此网站的运营。即使是首次访问的用户，烦人的 cookie 同意弹窗现在也已关闭。

自2023年6月7日（星期五）起，由于 Optiver 的慷慨捐赠，全世界的任何人都可以自行创建一个 VisuAlgo 账户，以存储一些自定义设置（例如，布局模式，默认语言，播放速度等）。

此外，对于 NUS 学生，通过使用 VisuAlgo 账户（一个 NUS 官方电子邮件地址，课堂名册中的学生姓名，以及在服务器端加密的密码 - 不存储其他个人数据），您同意您的课程讲师跟踪您的电子讲义阅读和在线测验培训进度，这是顺利进行课程所必需的。您的 VisuAlgo 账户也将用于参加 NUS 官方的 VisuAlgo 在线测验，因此，将您的账户凭据传递给他人代您进行在线测验构成学术违规。课程结束后，您的用户账户将被清除，除非您选择保留您的账户（OPT-IN）。访问完整的 VisuAlgo 数据库（包含加密密码）的权限仅限于 Halim 教授本人。

对于全球其他已经给 Steven 写过信的 CS 讲师，需要一个 VisuAlgo 账户（您的（非 NUS）电子邮件地址，您可以使用任何显示名称，以及加密密码）来区分您的在线凭据与世界其他地方。您的账户将具有 CS 讲师特定的功能，即能够查看隐藏的幻灯片，这些幻灯片包含了在隐藏幻灯片之前的幻灯片中提出的问题的（有趣的）答案。您还可以访问 VisuAlgo 在线测验的 Hard 设置。您可以自由地使用这些材料来增强您的数据结构和算法课程。请注意，未来可能会有其他 CS 讲师特定的功能。

对于任何拥有 VisuAlgo 账户的人，如果您希望不再与 VisuAlgo 工具有关联，您可以自行删除您的账户。