【GBA、NDS、PSP】汉化基础教程——压缩篇 by PGCG

守护￥云 · 发表于 2010-8-24 16:33:21

本帖最后由守护￥云于 2010-8-24 17:42 编辑

汉化基础教程——压缩篇 by PGCG

本节介绍几个常见的压缩算法。

（一）字典算法

　　字典算法是最为简单的压缩算法之一。它是把文本中出现频率比较多的单词或词汇组合做成一个对应的字典列表，并用特殊代码来表示这个单词或词汇。例如：
　　有字典列表：
　　00=Chinese

　　01=People

　　02=China by

　　源文本：I am a Chinese people,I am from China 压缩后的编码为：I am a 00 01,I am from 02。压缩编码后的长度显著缩小，这样的编码在SLG游戏等专有名词比较多的游戏中比较容易出现，比如《SD高达》。

（二）固定位长算法（Fixed Bit Length Packing）

　　这种算法是把文本用需要的最少的位来进行压缩编码。

比如八个十六进制数：1，2，3，4，5，6，7，8。转换为二进制为：00000001，00000010，00000011，00000100，00000101，00000110，00000111，00001000。每个数只用到了低4位，而高4位没有用到（全为0），因此对低4位进行压缩编码后得到：0001，0010，0011，0100，0101，0110，0111，1000。然后补充为字节得到：00010010，00110100，01010110，01111000。所以原来的八个十六进制数缩短了一半，得到4个十六进制数：12，34，56，78。

这也是比较常见的压缩算法之一。

（三） RLE算法

　　这种压缩编码是一种变长的编码，RLE根据文本不同的具体情况会有不同的压缩编码变体与之相适应，以产生更大的压缩比率。

　　变体1：重复次数+字符

文本字符串：A A A B B B C C C C D D D D，编码后得到：3 A 3 B 4 C 4 D。
　　变体2：特殊字符+重复次数+字符

文本字符串：A A A A A B C C C C B C C C，编码后得到：B B 5 A B B 4 C B B 3 C。编码串的最开始说明特殊字符B，以后B后面跟着的数字就表示出重复的次数。

　　变体3：把文本每个字节分组成块，每个字符最多重复 127 次。每个块以一个特殊字节开头。那个特殊字节的第 7 位如果被置位，那么剩下的7位数值就是后面的字符的重复次数。如果第 7 位没有被置位，那么剩下 7 位就是后面没有被压缩的字符的数量。例如：文本字符串：A A A A A B C D E F F F。编码后得到：85 A 4 B C D E 83 F（85H= 10000101B、4H= 00000100B、83H= 10000011B）

　　以上3种不RLE变体是最常用的几种，其他还有很多很多变体算法，这些算法在Winzip Winrar这些软件中也是经常用到的。

（四） LZ77算法

　　LZ77算法是由 Lempel-Ziv 在1977发明的，也是GBA内置的压缩算法。LZ77算法有许多派生算法(这里面包括 LZSS算法)。它们的算法原理上基本都相同，无论是哪种派生算法，LZ77算法总会包含一个动态窗口（Sliding Window）和一个预读缓冲器（Read Ahead Buffer）。动态窗口是个历史缓冲器，它被用来存放输入流的前n个字节的有关信息。一个动态窗口的数据范围可以从 0K 到 64K，而LZSS算法使用了一个4K的动态窗口。预读缓冲器是与动态窗口相对应的，它被用来存放输入流的前n个字节，预读缓冲器的大小通常在0 – 258 之间。这个算法就是基于这些建立的。用下n个字节填充预读缓存器（这里的n是预读缓存器的大小）。在动态窗口中寻找与预读缓冲器中的最匹配的数据，如果匹配的数据长度大于最小匹配长度（通常取决于编码器，以及动态窗口的大小，比如一个4K的动态窗口，它的最小匹配长度就是2），那么就输出一对〈长度（length），距离（distance）〉数组。长度(length)是匹配的数据长度，而距离(distance)说明了在输入流中向后多少字节这个匹配数据可以被找到。

　　例如：（假设一个 10个字节的动态窗口, 以及一个5个字节的预读缓冲器）
文本：
A A A A A A A A A A A B A B A A A A A

--------------------- =========

动态窗口预读缓存器

动态窗口中包含10个A ，这就是最后读取的10个字节。预读缓冲器包含了 B A B A A。编码的第一步就是寻找动态窗口与预读缓存器相似长度大于2的字节部分。在动态窗口中找不到B A B A A，所以B就被按照字面输出。然后动态窗口滑过1个字节，现在暂时输出了一个B。
第二步：
A A A A A A A A A A A B A B A A A A A

--------------------- =========

动态窗口预读缓存器

现在预读缓冲器包含A B A A A，然后再和动态窗口进行比较。这时，在动态窗口找到了相似长度为2的A B，因此一对〈长度, 距离〉就被输出了。长度(length)是2 并且向后距离也是2，所以输出为<2,2>，然后动态窗口滑过2个字节。现在已经输出了B <2,2>。 Ba76~-gK$
第三步：

A A A A A A A A A A A B A B A A A A A
--------------------- =========
动态窗口预读缓存器

继续上面的方法得到输出结果<5,8>。现在已经输出了B <2,2> <5,8>。

最终的编码结果是：A A A A A A A A A A A B <2,2> <5,8>。

但数组是无法直接用二进制来表示的，LZ77会把编码每八个数分成一组，每组前用一个前缀标示来说明这八个数的属性。比如数据流：A B A C A C B A C A按照LZ77的算法编码为：A B A C<2,2> <4,5>，刚好八个数。按照LZ77的规则，用“0”表示原文输出，“1”表示数组输出。所以这段编码就表示为：00001111B（等于0FH），因此得到完整的压缩编码表示：F A B A C 2 2 4 5。虽然表面上只缩短了1个字节的空间，但当数据流很长的时候就会突出它的优势，这种算法在zip格式中是经常用到。

　　除此之外还有很多压缩算法，像霍夫曼编码（Huffman Encoding）等等。这些编码也是非常的著名而且压缩效率极高，不过这些编码的算法相对比较繁琐，规则也很复杂，由于篇幅就不逐一介绍了。如果大家对这方面感兴趣可以到网站相关网站查询资料。

小结：

　　这一节介绍的几种算法在GBA上是比较容易遇到的典型算法，但绝不是说只有这几种，还是有很多时候都得自己ASM跟踪进行分析，这里介绍给大家希望能拓展大家的思维，方便进行程序分析，对于一切的问题ASM才是万能的。

账号		自动登录	找回密码
密码			注册

【GBA、NDS、PSP】汉化基础教程——压缩篇 by PGCG

相关帖子