大语言模型的中文性能提升

  ChatGPT刚刚发布的时候,它的中文能力让人惊艳。使用中文进行遣词造句时,明显感觉到其中文能力是通过英文语言能力泛化而来,缺乏对中国文化和汉字的理解。也就是说中文语言能力明显比中文文字能力高。比如相关诗词歌赋、谜语、笑话的性能非常弱,甚至连四大名著中的内容都缺乏理解。

如何让LLM更好理解中文呢?从国内开源的大语言模型训练过程看,主要还是通过更多的中文语料,以及扩充改良汉语词表的方式来提升中文性能。我觉得如果让LLM模型更好处理中文,必须要对中国文化以及汉字本身有深入的理解。也就是需要两个途径,一方面是需要更大量优质中文内容语料,另一方面需要采用更适合中文的Tokenization方式。

优质中文语料方面不多说了。分词编码方面,目前BPE算法是当前处理多语言的首选,是一种非常优秀的语言无关的词表构建算法。而当前主流的LLM模型都是直接采用汉字的unicode编码进行BPE词表训练生成的。显然unicode编码对中文支持太差,几乎不包含任何汉字信息。相对来说,英文的unicode编码精准反映了单词信息。于是我得出结论,要想大幅度提升中文语言能力,必须使用新的编码方式。我一直期待着国内外的AI团队能够在这方面有所突破。不过我也幻想着随着不限量增加中文语料,最终能够通过字里行间的信息中学习到汉字的造字造词方法。

当时自己想到的中文BPE编码方式中包含:

  1. 拼音音调编码。
  2. 笔画顺序编码。
  3. 间架结构编码。

在做嵌入训练时,加入汉字变体的相似度指标和维度。如中文简繁体,通假字等等。


看起来的确挺复杂,不过实现BPE实现起来并不困难。


可是,当多模态的GPT-4o推出后,官宣其非英语的多语言能力性能提升显著。废话不多说,直接上一段火星文测试看看:


```

【用户】:涫理後珆、尒珵垿囸鉽寰璄巳圱级潑鈽結娕。涫理後珆芣哃裑妢哃溡憕淥濡使鼡芣哃瀏灠噐戓娸狆①個裑妢使鼡嘸痕嗼鉽。

【AI】:管理后端、你称之为正式环境已前级发布结束。管理后端不同身份同时间录入需使用不同浏览器或在其中一个身份使用无痕模式。

```

看到这个结果,我无语了。通过汉字的图像模态学习,直接降维打击了我设计的那种复合编码模式。作为象形会意文字,汉字的图形中包含更多的信息。chatGPT并未刻意提升汉语能力,但是新的技术进步自然而然带着汉语能力更上一层楼。假以时日,更多的中文语料加入训练后,可想而知其性能提升的空间。


看到这个结果,我更加理解OpenAI对创业公司的告诫:AI应用不要在改进大语言模型能力方面投入太多,大语言模型的演进很快会自我修订这些问题。


附我认为国内最好的多模态模型通义千问 QWen2的测试结果:


```

【用户】:涫理後珆、尒珵垿囸鉽寰璄巳圱级潑鈽結娕。涫理後珆芣哃裑妢哃溡憕淥濡使鼡芣哃瀏灠噐戓娸狆①個裑妢使鼡嘸痕嗼鉽。

【AI】:管理后辈、小程垿囸鉽寰璄已国土级泼鈽结构。管理后辈不同身份同时绿如使用不同浏览器或其中1个身份使用无痕模式。

```


Comments

Popular posts from this blog

The ADHD Algorithm: From Dijkstra to SSSP

ADHDer的自救算法

注意力悖论