大约大半年前完成一个矢量字库类,使用freetype库从矢量字库中读取字符轮廓,然后转成只有0、1的缓冲区,可以使用许多场合。涉及了freetype的操作,同时还有字符编码方面的知识。前不久,有同事反映说我提供的东西不能生成“绿”字。经测试,的确如此。查找代码发现原来编码转换表不全面,没有“绿”字的unicode码。那个对应表是在网上找的,自己也没做全面测试——我不会无聊到所有的汉字都测试一遍。
后来仔细一想,觉得有必要自己生成一个自己看得懂的查询表,并且比较全面的。于是找啊找,不小心找到了一个专门介绍编码的网站,找到了一个号称是GB18030和unicode对应的文本文件。具体地址是:http://icu-project.org/repos/icu/data/trunk/charset/source/gb18030/gbkuni30.txt。这个网站还有其它许多有用的资料,虽然是英文的,但认真看看,十分有用。至于如何查找,有志之士应该十分清楚,就不在此献丑了(写到这里,突然想到,在许多工作时间中,许多东西都有手把手教——甚至一些简单的东西,看来这种做法要改改了)。
为了在程序中使用那个表,于是自己写了生成查询表的小程序。程序很简单,就是直接用上述地址的文件生成一个一维数组。网上有类似的表,有的数组是二维的,查找不方便。下面的程序生成的是数组是按照GBK编码排序的,就是说,直接用GBK的编码查找数组即得到unicode码。比如,汉字“绿”的GBK编码是0xc2cc,则数组的第0xc2cc偏移的值就是“绿”的unicode编码:0x7eff。
完整代码如下:
1 | #include <stdio.h> |
GBK转换成unicode码函数如下:
1 | int gbk_to_unicode(unsigned short int* unicode, const char* gb, int len) |
注意上面的函数的寻址方式,这里会涉及到大小端的问题,寻址方式一定要和生成的查询表对应。这里转换得到的temp的值就是汉字的GBK码,直接查找数组即得到unicode码。
测试函数如下:
1 | void main() |
参考资料:
Unicode、GB2312、GBK和GB18030中的汉字:http://www.fmddlmyy.cn/text24.html
GB18030编码研究以及GBK、GB18030与Unicode的映射:http://www.fmddlmyy.cn/text30.html
浅谈文字编码和Unicode(上):http://www.fmddlmyy.cn/text16.html
浅谈文字编码和Unicode(下)::http://www.fmddlmyy.cn/text17.html
迟,写于2013年8月18日睡前