Gemini-Flash-2.0 OCR 解决了之前 1.5-Pro 中文识别错乱的问题,可以单独做为 OCR 方案了。
这个普通表格模型也能做吧 我明天试试
非常准确很难。尤其是我回复里还有一个 1 100需要还原为 1100,很多模型都翻车。
1.5时代我就已经觉得是大模型里最强的OCR了,现在更是恐怖如斯。
1.5 中文幻觉问题比较严重,会改字
速度怎么样
很快
相对于专用OCR 比GOT OCR2.0还要强吗
got ocr 效果不佳,还不如mineru
wow 相当不错了 我记得 GPT-4 Turbo 也是没法 OCR 中文,到了 GPT-4o 就可以了
刚刚看到一个小票识别。
gemini-2.0-flash-exp
这个模型可以本地跑吗
不知道手写体的效果怎么样
晚上回去把之前的几个pdf重新跑上一遍
效果非常恐怖,我自己测了十几个 demo,不需要任何提示词一句话 + temperature=0,正确率百分之百。没有一点错的。
在半年前,同样的 demo 我 GPT-4,qwen-vl 和 claude 为数不多的几个支持视觉的模型,答对率不超过3成,而且输出速度跟 flash2.0 可能差了一个档。
没想到打败机器OCR的是LLM,badass牛逼
真是个好消息
这么猛,unstructured要寄了,Google的vision多模态确实比另几家要强不少
老师,请教一下,这种大模型识别文字与传统的ORC有什么优势
我下午买咖啡的时候拍了张小票(故意35°倾角),识别结果确实很惊艳,也不会故意自己重新整理和发挥。很适合做OCR识别或者单据识别了