Ollama-minicpm-v

Ollama-minicpm-v是一个基于minicpm的开源项目，本文是对该模型视觉识别效果的简单介绍和使用说明。

测评

对图片的描述：描述全面、细节到位；
- 风景
- 动作
- 流程图的理解：基本看懂了这个流程图
对图片的OCR：虽然不是完全复原布局，但是该有的信息以及总结都有，也满足Markdown格式
优点，识别效果远高于其他Ollama中的视觉模型
缺点：每次回答结果都不太一样，不太稳定，有时回答不了；

代码


import ollama

response = ollama.chat(
    model='minicpm-v',

    messages=[{
        'role': 'user',
        'content': '请你识别这种图片，如果这张图片内容大多是文字，直接以Markdown格式给出OCR结果（完整还原布局和信息），否则如果是风景图/流程图等文字量较少的图片，描述一下这张图的内容(特征和细节），使用中文回答',
        'images': ['1.png']
    }]
)

# 只打印消息内容
print(response['message']['content'])

#Job

Ollama-minicpm-v

https://tolsz.me/2025/02/13/Ollama-minicpm-v/

作者

wbj_Lsz

发布于

2025年2月13日

许可协议

项目预处理初步测试效果上一篇

ExtractThinker 下一篇