- 运行非量化版:内存超过19GB
- 运行量化版:内存超过8GB
按照llama.cpp的教程获取gguf模型文件,语言模型最好进行量化处理。
通过Git克隆指定分支:
git clone -b minicpm-v2.5 https://github.com/OpenBMB/ollama.git
cd ollama/llm
确保满足以下依赖条件:
- CMake版本3.24以上
- Go版本1.22以上
- GCC版本11.4.0以上
使用Homebrew安装这些依赖:
brew install go cmake gcc
安装Ollama的大模型依赖:
go generate ./...
编译Ollama:
go build .
编译成功后,在Ollama主路径下启动服务:
./ollama serve
创建一个名为minicpmv2_5.Modelfile
的文件:
vim minicpmv2_5.Modelfile
文件内容如下:
# 第一个和第二个 FROM 空格后面分别写上量化后的语言模型地址和图像投影模型地址
FROM ./MiniCPM-V-2_5/model/ggml-model-Q4_K_M.gguf
FROM ./MiniCPM-V-2_5/mmproj-model-f16.gguf
TEMPLATE """{{ if .System }}<|start_header_id|>system<|end_header_id|>
{{ .System }}<|eot_id|>{{ end }}{{ if .Prompt }}<|start_header_id|>user<|end_header_id|>
{{ .Prompt }}<|eot_id|>{{ end }}<|start_header_id|>assistant<|end_header_id|>
{{ .Response }}<|eot_id|>"""
PARAMETER stop "<|start_header_id|>"
PARAMETER stop "<|end_header_id|>"
PARAMETER stop "<|eot_id|>"
PARAMETER num_keep 4
PARAMETER num_ctx 2048
使用以下命令创建Ollama模型:
ollama create minicpm2.5 -f minicpmv2_5.Modelfile
运行创建的Ollama模型:
ollama run minicpm2.5
输入问题和图片地址时,请使用空格进行分割。
现在您可以开始使用Ollama进行高效推理了!