Ollama-minicpm-v

Ollama-minicpm-v是一个基于minicpm的开源项目,本文是对该模型视觉识别效果的简单介绍和使用说明。

测评

  • 对图片的描述:描述全面、细节到位;

    • 风景

    alt text
    alt text

    • 动作

    alt text
    alt text

    • 流程图的理解:基本看懂了这个流程图

      alt text
      alt text

  • 对图片的OCR:虽然不是完全复原布局,但是该有的信息以及总结都有,也满足Markdown格式

    alt text
    alt text

  • 优点,识别效果远高于其他Ollama中的视觉模型

  • 缺点:每次回答结果都不太一样,不太稳定,有时回答不了;

代码

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

import ollama

response = ollama.chat(
model='minicpm-v',

messages=[{
'role': 'user',
'content': '请你识别这种图片,如果这张图片内容大多是文字,直接以Markdown格式给出OCR结果(完整还原布局和信息),否则如果是风景图/流程图等文字量较少的图片,描述一下这张图的内容(特征和细节),使用中文回答',
'images': ['1.png']
}]
)

# 只打印消息内容
print(response['message']['content'])

Ollama-minicpm-v
https://tolsz.me/2025/02/13/Ollama-minicpm-v/
作者
wbj_Lsz
发布于
2025年2月13日
许可协议