游客发表
![]()
这项由慕尼黑大学(LMU Munich)、慕尼黑工业大学(TU Munich)及慕尼黑计算与机器学习中心(MCML)联合主导,并与法国索邦大学暨法国国家科研中心(CNRS)合作完成的研究,于2026年4月14日作为预印本发布,论文编号为arXiv:2604.12978。感兴趣的读者可以通过该编号在arXiv平台上查阅完整原文。
你肯定见过那种手机扫一扫就能把照片里的文字"读"出来的功能——无论是拍下一张菜单、扫描一份合同,还是拍下路标让它自动翻译,背后都有一种叫做"OCR"的技术在工作。OCR,全称Optical Character Recognition,中文叫做光学字符识别,说白了就是让计算机"认字"。近年来随着AI技术的爆炸式发展,这类识字能力已经进化到了令人叹为观止的水平——至少,在英文、中文这些"大语言"上是这样。
然而,这支跨国研究团队决定做一件让人有点不安的事:他们想知道,当这些AI遇到世界上那些"冷门文字"时,会发生什么?毕竟,地球上现在通用的Unicode标准收录了172种书写系统,从古埃及象形文字到埃塞俄比亚的吉兹字母,从缅甸文到线形文字B,每一种都承载着真实的人类文化与历史。这些文字的使用者加起来多达数以亿计,但它们在AI眼中,可能根本就是"天书"。
为了把这个问题说清楚,研究团队建立了一个叫做GlotOCR Bench的评测基准,覆盖158种Unicode书写系统,用来系统性地考察当前最先进的AI识字模型,到底能认得几种字。结果令人警醒:几乎所有模型在英文上表现优秀,但遇到阿拉伯文、梵文等中等资源文字已经明显吃力,而面对剩下148种"小众"书写系统时,识别准确率直接塌方——最好的模型也只能正确读出不到8%的句子。更糟糕的是,这些AI并不会老老实实承认"我不认识",而是继续生成看起来像模像样、实则完全不对的文字输出,仿佛一个不懂日语却对着日文菜单信口开河的外国游客。
一、从"认字神器"到"文字盲点":为什么要做这个测试
在讨论这项研究的具体发现之前,有必要理解一个背景:目前AI领域主流的OCR评测基准,比如OCRBench、OCRBench v2、CC-OCR、OmniDocBench等,关注的重点几乎清一色是拉丁字母(也就是英语等西欧语言用的那套字母)和中日韩文字,再加上屈指可数的几种其他文字。就连那些号称"多语言OCR"的研究,实际上也是在说"多种语言",而不是"多种书写系统",底层的文字种类依然十分有限。
这就好比你测试一位厨师能不能做各地美食,结果只考了他做意大利面、炒饭和汉堡,然后说他"全球厨艺一流"。世界上还有数百种风味独特的菜系,从来没进过这位厨师的厨房,但他的"全球厨艺"证书已经挂在墙上了。
研究团队指出,Unicode标准目前编码了172种书写系统,代表着几千年来人类在地球上每一个有人居住的大陆上发展出来的文字形式。其中许多书写系统至今仍被数百万人日常使用,另一些则对历史语言学、考古学和文化保护具有不可替代的价值。当一个族群的历史文献、宗教典籍或民间故事以某种小众文字书写,却因为OCR技术无法识别而无法被数字化时,这不仅是技术问题,更是一种文化上的遮蔽。
此外,从实用角度看,大量书籍和扫描文件代表着训练低资源语言AI模型的潜在数据宝库,而要把这些资料转化为可用数据,可靠的跨文字OCR技术是不可或缺的第一步。正是带着这样的关切,研究团队启动了这项覆盖面空前广泛的评测工作。
二、打造一把精密的"文字标尺":GlotOCR Bench是怎么做的
要评测AI认字的能力,首先得准备好考卷。GlotOCR Bench的构建过程本身就是一项极为细致的工程,因为要覆盖158种书写系统,每一个环节都必须针对每种文字的独特特性进行处理。
研究团队将这158种书写系统按照在网络内容中的普及程度分为三个等级。第一级是"高资源",只有一种书写系统入围,那就是拉丁字母。第二级是"中资源",共有九种:阿拉伯文、西里尔文(俄语等斯拉夫语言使用)、天城文(梵文/印地语使用)、汉字、日文(平假名/片假名/汉字混用)、韩文(谚文)、希腊文、希伯来文和泰文。第三级是"低资源",包含剩余的148种书写系统,占全部收录书写系统的94%。
文本素材来源非常广泛,主要数据集是GlotLID v3,这是一个涵盖超过2102种语言-文字组合的多语言数据库。对于GlotLID覆盖不足的书写系统,团队还额外从维基词典、维基文库、全球文字网站Omniglot、谷歌字体语言数据库等多处补充材料,甚至对一些缺乏原生数字文本的书写系统,借助文字转换工具将其他语言的内容转写过来。每条句子都经过GlotScript工具验证,确保所用文字确实是该语言的惯用书写系统,而非随机生成的字符序列。
在每种书写系统下,研究团队最多采集100个句子,但拉丁字母采集了4000个,部分中资源书写系统采集了400个以便进行更细化的语言分析。整个数据集共包含16375个句子。
把文本变成图片的过程同样大有讲究,因为OCR考的是识别图片中的文字,而不是直接处理文本。图片渲染使用了HarfBuzz负责文字成形(确保字母按照该书写系统的规则正确拼合)以及FreeType负责字形光栅化(把矢量字形转成像素图像)。字体全部来自谷歌字体库,并按照三步筛选流程逐一核验:先筛出声称支持该书写系统的字体,再从中筛出能覆盖句子中所有Unicode码点的字体,最后只保留真正能成功渲染所有字形的字体。这三步都不可省略,因为实际检查发现,有些字体声称支持某种文字,但到了实际渲染时仍会出错。最终,每种书写系统下随机选取一种通过所有筛选的字体来渲染图片。
每个句子会生成两种版本的图片。"干净版"在白色背景上以48像素字号渲染,加上轻微的随机旋转(最多正负1度),模拟轻微的页面倾斜。"做旧版"则经过一系列模拟陈旧文件的处理流程:叠加随机裁剪的扫描纸张纹理背景,加上最多正负2度旋转;施加弹性变形和高斯噪声;添加10至30个白色矩形斑块模拟墨水脱落,并将像素亮度缩放到50%至85%模拟墨水褪色;将图片降采样到原始分辨率的40%至70%再放大回来,并以30至80的质量进行JPEG压缩;最后对四个角点进行最多10%图像尺寸的透视变形。在字形级别,字符间距也会随机扰动,每个字形有40%概率被膨胀处理、25%概率被腐蚀处理,每行文字会有上下3像素的随机抖动,字形还会以抛物线曲率纵向位移,模拟纸张卷曲。
所有渲染结果都经过人工抽检,每种书写系统随机抽查10张图片跨不同尺寸验证视觉正确性。对于常见书写系统,与外部编辑器对比验证;对于稀有书写系统,则逐字符与Unicode字符图表比对。
三、请来14位"考生":被评测的AI模型
研究团队共评测了14个OCR模型,覆盖开源和商业API两类。开源模型包括:dots.ocr(专注多语言文档版面解析的视觉-语言模型)、dots.mocr(dots.ocr的1.5版本升级)、olmOCR-2(专为PDF文档解析设计的开源模型)、RolmOCR(更轻量的开源OCR模型)、LightOnOCR-2(10亿参数的端到端多语言视觉-语言OCR模型)、Nanonets-OCR2(将文档转换为结构化Markdown的模型)、PaddleOCR-VL-1.5(百度飞桨团队的多任务文档解析模型)、FireRed-OCR、GLM-OCR、DeepSeek-OCR-2、HunyuanOCR(腾讯混元视觉团队的模型)和Qwen3-VL-8B(阿里巴巴通义千问视觉语言模型的8B参数版本)。商业API模型则包括谷歌的Gemini 3.1 Flash-Lite和OpenAI的GPT-4.1。
所有模型都以"零样本"方式进行测试,也就是说,测试时不给模型任何额外示例或提示,只是简单要求它把图片里的文字抄录下来,不做任何额外解释。这样的测试方式最能反映模型的真实能力,而非经过刻意调整后的表现。
评测使用三个核心指标。CER(字符错误率)是最基础的指标,通过计算模型输出与正确答案之间的字符级编辑距离(增删改的最少操作次数)来量化错误程度,数值越低越好,0表示完全正确。为了公平起见,评测时还会对比原始输出、反向输出、小写输出以及去除Unicode附加符号后的输出,取四种情况中最好的那个CER,避免因大小写或书写变体差异而不公平地惩罚模型。Acc@0(字符零错误率)指的是模型输出与正确答案完全一致的比例,而Acc@5(5%以内错误率)则是研究团队最核心的精度指标,指模型输出的CER不超过5%的句子比例——换言之,就是"几乎完全正确"的比例,自然是越高越好。ScriptAcc(书写系统准确率)则不在乎文字是否完全正确,只问模型是否至少识别对了这是哪种书写系统——比如看到泰文,回答是不是泰文字符,而非梵文或阿拉伯文。这个指标能揭示一种独特的失败模式:模型是真的在尝试识别目标文字,还是根本就在"说另一种语言"。
四、考试结果出炉:三个等级,三种命运
测试结果以一种几乎可以用"戏剧性"来形容的方式呈现了三档之间的鸿沟。
在高资源等级(拉丁字母),所有14个模型的Acc@5都超过了75%,表现最好的几个模型超过90%。Gemini 3.1 Flash-Lite以95.3%的Acc@5领跑,dots.mocr以93.1%紧随其后,olmOCR-2达到90.5%。不过值得注意的是,即便在这个"擅长领域",也没有任何模型达到接近完美的水平——大多数模型的CER仍在2%以上,也就是说每100个字符里平均有两个错误。这部分误差主要来自拉丁字母本身在不同语言中的变体,比如冰岛语中的"?"经常被误认为是视觉上相近的"p",而这种错误在那些以英文为主要训练语言的模型中尤为明显。
中资源等级(阿拉伯文、西里尔文等9种书写系统)的成绩明显下滑。平均Acc@5从高资源的87.6%下降到60.0%,跌幅约28个百分点。Gemini 3.1 Flash-Lite依然以82.7%位居首位,dots.ocr以78.3%排名第二。但在这一等级,不同模型之间的差距开始拉大——Qwen3-VL-8B和olmOCR-2比顶部模型落后约15至19个百分点,而GLM-OCR和DeepSeek-OCR-2则比Gemini 3.1 Flash-Lite低了40个百分点以上,显示出在中资源书写系统上的泛化能力相当有限。
低资源等级(剩余148种书写系统)则是真正的灾难现场。平均Acc@5从中资源的60.0%直接崩塌至2.3%,跌幅近58个百分点,且这个下滑并非渐进式的,而是一个陡峭的悬崖式断层。即便是表现最好的Gemini 3.1 Flash-Lite、dots.ocr和dots.mocr,Acc@5也只达到7.7%。换句话说,在这148种书写系统的测试句子中,超过92%对于这些最强模型来说依然无法正确读出。对于其余11个模型,Acc@5低于5%,其中8个甚至低于1%,几乎接近于完全失败。
研究团队把这个现象总结为"阈值效应":模型的表现并不随着书写系统资源的减少而平滑降低,而是存在一个明显的临界点——一旦某种书写系统在训练数据中的覆盖程度低于某个门槛,模型就几乎完全无法识别,表现从"有用"直接跳跃到"无用",中间几乎没有过渡地带。
五、同一种字母,也分三六九等:阿拉伯文的特殊困境
研究团队进一步分析了拉丁文、梵文/天城文、阿拉伯文和西里尔文这四种书写系统内部、跨语言的表现差异,结果揭示了另一层不均匀性。
即便在高资源的拉丁字母等级,不同语言之间的模型表现也存在相当大的波动。总体中位数固然很高(通常超过90%),但一些使用非英文拉丁字母变体的语言,比如冰岛语、波兰语、越南语等,其准确率明显低于以英语为主要训练语言的模型所能达到的水平。
天城文(用于书写印地语、梵语等)的整体表现比拉丁文低,但多数模型仍能维持中等水平。此书写系统中的误差主要来自"叠合字符"——多个字母在书写时合并成一个复杂字形,类似汉字里的合体字。不过由于叠合字符是天城文的核心特征,大多数模型已经对此有所适应。
西里尔文(用于俄语、保加利亚语等斯拉夫语言)的表现相对不错,多个模型的中位数接近拉丁文,但各语言间的差异仍然显著。
阿拉伯文的表现则最为惨烈,不仅总体中位数低,而且各语言之间的差异极大,且整体分布向低分端严重倾斜。研究团队认为,这反映了阿拉伯文字本身的复杂性:同一个字母在词首、词中、词尾会有不同的写法;可选的元音符号(短元音标记)可有可无;阿拉伯文还是多种语言(阿拉伯语、波斯语、乌尔都语、普什图语等)的共同书写系统,每种语言有其独特的用字习惯和变体,使得泛化极为困难。
六、认出"它是什么字"和"念出它写了什么":两个完全不同的难题
研究团队还专门分析了ScriptAcc(能否认出这是什么书写系统)和Acc@5(能否正确读出内容)之间的关系,发现两者虽然强相关,但存在一些非常有启发性的例外。
总体趋势符合直觉:高资源和中资源书写系统(拉丁文、日文、希腊文、汉字等)聚集在右上角,既能认出书写系统,也能读出内容;低资源书写系统散布在左下方,两项都很低。
但有几个例外值得关注。阿拉伯文的ScriptAcc很高,说明模型能认出这是阿拉伯文字,但Acc@5却相对较低,说明问题出在识别具体内容上,而非书写系统层面——模型知道这是阿拉伯文,就是读不准。希伯来文则相反,它的ScriptAcc出人意料地低,因为模型频繁把希伯来文误认为泰文(从附录的混淆矩阵可以看出),拉低了其整体OCR表现。日文则是一个令人惊喜的正向异常值:尽管日文混合了平假名、片假名和汉字三套书写系统,其Acc@5却高于纯粹的拉丁字母,表明那些有足够训练数据的模型完全有能力处理多书写系统混排的复杂情况。
七、给AI一个"提示"有用吗?揭秘"作弊测试"的结果
研究团队做了一个有趣的对照实验:给GPT-4.1一个"超级提示",明确告诉它"这张图片里的文字使用的是某种书写系统,属于某种语言,而且图中出现的所有字符按Unicode码点排序后是这个集合",然后再让它转录。这相当于考试时给学生一张参考卡,上面列出了所有可能出现的考点字符。
结果却出人意料地平淡。在149种被测试的书写系统中,125种完全没有改善,只有21种出现了提升,3种甚至略有下降,平均提升仅0.7个百分点。
不过在那21种有所改善的书写系统中,改善幅度有明显差异。汉字的提升最为显著,超过20个百分点,这是有道理的:汉字的字符库极为庞大,单是常用汉字就有数千个,给定候选字符集合相当于大幅缩小了搜索空间,模型因此能避免用常见字替换视觉相似的生僻字。西里尔文和泰文也有明显提升,说明对这些书写系统来说,字符歧义是一个不可忽视的错误来源。
然而,对于低资源书写系统,即便给出了"作弊提示",改善仍然微乎其微,大部分停留在个位数。这说明知道"应该认哪些字"并不能解决根本问题:模型缺乏的是对这些字形的视觉识别能力和对应的预训练知识,而不仅仅是候选集太大。
八、旧纸张的挑战:图像质量如何影响识别率
研究团队还专门比较了在干净图片和"做旧文件"图片两种条件下,六个表现最好的模型(dots.mocr、dots.ocr、HunyuanOCR、olmOCR-2、GPT-4.1、GLM-OCR)的表现差异。
在所有等级和所有模型上,图像做旧处理都会导致Acc@5下降,但下降幅度因资源等级而异。对于高资源的拉丁字母,GPT-4.1的相对下降幅度约为13.8%,表现出相对较强的鲁棒性,而olmOCR-2的相对下降则达到19.7%。对于中资源书写系统,下降幅度更大,绝对值超过高资源等级,说明模型在熟悉程度较低的书写系统上,受图像质量干扰的影响更为显著。对于低资源书写系统,由于基础准确率本来就已接近零,绝对下降幅度看起来很小,但相对而言意味着所剩无几的那点"偶尔答对"的机会也几乎消失殆尽。
这告诉我们一个朴素的道理:干净图片代表着OCR性能的上限,现实中的文件往往比测试用的干净图片质量更差,真实场景中的识别困难只会比基准测试显示的更严峻。
九、"答不出来"和"乱答一通"的区别:幻觉输出的解剖
研究中最令人印象深刻的发现之一,是对模型失败模式的详细分类。当模型无法正确识别某种书写系统时,它们的行为并不是沉默地"放弃",而是分成了三种截然不同的失败方式。
第一种是"跨书写系统幻觉",即模型输出的是另一种可识别的书写系统中的字符,看起来像真正的文字,只是写错了语言。第二种是"沉默",即模型返回空白或只有空格的回应。第三种是"乱码/伪文本",即输出包含GlotScript工具无法归类为任何真实书写系统的内容,通常是重复的数字串、标点符号循环,或模型自己生成的格式控制标记。
统计结果令人瞠目结舌。在所有模型的平均水平上,只有12.5%的输出被正确归类为目标书写系统。跨书写系统幻觉占到了平均68.4%,乱码伪文本占13.1%,沉默只占6%。换句话说,模型面对陌生文字时,压倒性的选择是"装作自己认识、用其他语言瞎写一通",而不是老实承认"这个我不认识"。
不同模型在"沉默"和"乱码"比例上差异很大,反映了不同的训练策略。dots.ocr的沉默率高达42.1%,说明这个模型在无法识别时倾向于不输出任何内容;而DeepSeek-OCR2的乱码率高达26.2%,表明它被训练成了"必须输出点什么",即便是面对空白图片也要生成内容。从用户体验角度看,沉默虽然令人沮丧,但至少是诚实的;乱码输出则可能造成误导,让用户误以为得到了有意义的信息。
幻觉的目标书写系统并非随机分布,而是高度集中在几种高资源和中资源书写系统上,其中拉丁字母、阿拉伯文和天城文合计占据了绝大多数幻觉输出的份额。一些替换关系反映了书写系统之间真实的视觉相似性,比如叙利亚文被写成阿拉伯文、格兰他文被写成泰米尔文、科普特文被写成希腊文、内瓦尔文被写成天城文、西夏文被写成汉字、傈僳文被写成拉丁字母——每种情况都是把一种小众书写系统替换为其在视觉上最相近的高资源"近亲"。另一些替换则纯粹是由训练数据的统计分布驱动的:古维吾尔文和蒙古文在测试中被水平排列(因为基准测试不支持传统的竖排书写),而其水平书写形态在视觉上可能与阿拉伯文的连写笔画有表面相似之处,导致被频繁误识别为阿拉伯文。Ogham文(一种古爱尔兰文字,由一系列在直线两侧的刻划组成)几乎被所有模型输出为拉丁字母,尽管两者在视觉上几乎没有共同点——这说明模型并非真的在做视觉匹配,而是在做统计猜测,输出训练数据中最常见的那种文字。
十、哪些文字是"绝对认不出来"的:零识别书写系统大盘点
研究附录中列出的数据更为直观地展示了这场测试中的"全线失守"有多彻底。有多达92种书写系统被所有模型在ScriptAcc上得零分,也就是说,没有任何一个模型能正确识别这些书写系统的输出。
这些书写系统并不都是远古文明的遗迹,其中包括至今仍有人日常使用的文字,比如N'Ko(西非曼德语族语言使用,有数百万使用者)、Adlam(西非富拉尼语使用,有数千万使用者)、Thaana(马尔代夫迪维希语使用)、Meitei Mayek(印度曼尼普尔邦官方书写系统)、Pahawh Hmong(苗族书写系统)等。这些书写系统中许多都有数以百万计的使用者,但对当今最先进的AI来说,它们完全透明不可见,仿佛根本不存在一样。
从模型的幻觉输出方向可以看出更多规律。面对Lepcha文(锡金地区使用),模型最常输出拉丁字母或阿拉伯文;面对Modi文(印度历史书写系统),最常输出天城文或泰文;面对N'Ko,最常输出阿拉伯文或拉丁字母。这种系统性的"认错父母"现象,清楚地揭示了AI识字系统的内在逻辑:它们对文字的认识高度依赖训练数据的覆盖范围,而不是基于对视觉形态的真正理解,更不是基于对人类书写系统多样性的广泛认知。
说到底,这项研究讲了一个关于"已知"与"未知"之间巨大鸿沟的故事。AI在识字这件事上已经取得了令人瞩目的成就,但这些成就高度集中在一小撮资源丰富的书写系统上。对于地球上绝大多数的书写传统,当前最强大的AI模型实际上处于一种"不知道自己不知道"的状态——它们不会承认自己不认识,而是自信地用自己熟悉的文字替代陌生的文字,制造出一种"能用"的假象。
研究团队用数据揭示的这个现实,对于所有关心数字包容性、文化多样性和语言技术公平性的人来说,都是一个值得认真对待的警示。AI识字技术的发展轨迹,如果不加以主动干预,可能会不断强化现有的资源差距:大语言的数字化越来越容易,小语言的数字化则因为缺乏可用的OCR工具而愈发困难,形成一个自我强化的恶性循环。
当然,这份数据本身也具有一定的局限性。对于那些样本量不足100个句子的书写系统,评测结论的统计可靠性相对较低,研究团队也坦诚地指出了这一点。此外,基准测试中的句子来自多种来源,质量和代表性参差不齐,对于某些书写系统,所谓的"真实语料"实际上是通过文字转换工具生成的,而非原生文本,这在一定程度上影响了测试的语言真实性。
但这些局限不足以否定研究的核心意义。GlotOCR Bench作为一个公开发布的基准测试,不仅提供了目前最全面的跨书写系统OCR评测数据,也为未来的研究者指明了方向:训练数据的覆盖范围,而非模型架构的复杂程度,才是制约低资源书写系统识别能力的根本瓶颈。这意味着要真正解决这个问题,需要的不仅是更聪明的算法,更是更广泛的数据收集、更多元的社区参与,以及对"哪些书写系统值得被数字化"这个问题的更公平回答。
有兴趣深入研究这个课题的读者,可以通过arXiv编号2604.12978查阅完整论文,或者访问论文中公开发布的评测基准数据集(Hugging Face数据集:cis-lmu/glotocr-bench)以及渲染流程代码(GitHub:cisnlp/glotocr-bench),亲自检验这些AI模型在你感兴趣的某种书写系统上的真实表现。
Q&A
Q1:OCR模型在低资源书写系统上的识别率有多低?
A:根据GlotOCR Bench的评测结果,即便是表现最好的Gemini 3.1 Flash-Lite,在148种低资源书写系统上的Acc@5(几乎完全正确转录的句子比例)也只有7.7%,其他大多数模型低于1%。这意味着对于这148种书写系统,模型在超过92%的句子上都无法正确识别。
Q2:OCR模型认不出某种文字时会怎么做?
A:OCR模型在无法识别某种书写系统时,绝大多数情况下不会沉默,而是会直接用它熟悉的其他语言文字"顶替"输出,这种现象被称为跨书写系统幻觉。统计显示,约68.4%的失败案例都是这种幻觉输出,模型最常用拉丁字母、阿拉伯文或天城文替代它认不出的书写系统,看起来像真实文字,实则完全错误。
Q3:给OCR模型提示"这张图片里有哪些字符"能帮它识别冷门文字吗?
A:帮助非常有限。研究团队专门对GPT-4.1做了"提示辅助"测试,在告知模型当前图片的书写系统和所有出现字符之后,149种书写系统中有125种完全没有改善,整体平均提升仅0.7个百分点。这说明对低资源书写系统而言,瓶颈不在于候选字符集太大,而在于模型从未真正学习过这些字形的视觉特征,仅凭提示无法弥补训练数据缺失这一根本性短板。
{loop type="link" row=1 }{$vo.title}