Gemini-Flash-2.0：增强的OCR技术，实现在中文识别中的高度准确性

原文链接

Gemini-Flash-2.0 OCR 解决了之前 1.5-Pro 中文识别错乱的问题，可以单独做为 OCR 方案了。

这个普通表格模型也能做吧我明天试试

非常准确很难。尤其是我回复里还有一个 1 100需要还原为 1100，很多模型都翻车。

1.5时代我就已经觉得是大模型里最强的OCR了，现在更是恐怖如斯。

1.5 中文幻觉问题比较严重，会改字

速度怎么样

很快

相对于专用OCR 比GOT OCR2.0还要强吗

got ocr 效果不佳，还不如mineru

wow 相当不错了我记得 GPT-4 Turbo 也是没法 OCR 中文，到了 GPT-4o 就可以了

刚刚看到一个小票识别。

gemini-2.0-flash-exp

这个模型可以本地跑吗

不知道手写体的效果怎么样

晚上回去把之前的几个pdf重新跑上一遍

效果非常恐怖，我自己测了十几个 demo，不需要任何提示词一句话 + temperature=0，正确率百分之百。没有一点错的。
在半年前，同样的 demo 我 GPT-4，qwen-vl 和 claude 为数不多的几个支持视觉的模型，答对率不超过3成，而且输出速度跟 flash2.0 可能差了一个档。

没想到打败机器OCR的是LLM，badass牛逼

真是个好消息

这么猛，unstructured要寄了，Google的vision多模态确实比另几家要强不少

老师，请教一下，这种大模型识别文字与传统的ORC有什么优势

我下午买咖啡的时候拍了张小票(故意35°倾角)，识别结果确实很惊艳，也不会故意自己重新整理和发挥。很适合做OCR识别或者单据识别了