koishi-plugin-florence
Powerful vision foundation model running locally in your koishi.
在您的 Koishi 上本地运行强大的视觉基础模型。
介绍
Florence-2 是一款先进的视觉基础模型,它采用基于提示的方法来处理各种视觉和视觉语言 任务。Florence-2可以解释简单的文本提示,执行如标注、对象检测和分割等任务。它利用我们的FLD-5B数据集,该数据集包含1.26亿张图像上的54亿个注释,来掌握多任务学习。该模型的序列到序列架构使其在零样本学习和微调设置中都表现出色,证明它是一个有竞争力的视觉基础模型。
插件功能
https://github.com/xenova/transformers.js/issues/815#issuecomment-2184090182
配置
修改 transformers.js 模块代码
transformers.js 存在无法加载 florence 的bug
你需要在 @huggingface/transformers/dist/transformers.mjs
删掉第7471行,并加上这段代码
let modelName = MODEL_CLASS_TO_NAME_MAPPING.get(this);
if (modelName === undefined){
modelName = 'Florence2ForConditionalGeneration'
}
下载模型
如果您的机器可以访问 huggingface, 则无需做此步骤
Details
点我查看👈
找一个存放模型的目录 例如D:\models\florence
前往 huggingface 下载模型
下载模型配置文件
你需要下载这些文件,保存到存放模型的目录
- config.json
- preprocessor_config.json
- generation_config.json
- tokenizer.json
- tokenizer_config.json
下载 onnx
新建一个文件夹 命名为 onnx
, 将以下模型放入 onnx
文件夹
如果你选择的模型 dtype 为 fp32 你需要下载这些 模型
- decoder_model_merged.onnx
- embed_tokens.onnx
- encoder_model.onnx
- vision_encoder.onnx
如果你选择的模型 dtype 为 q8 你需要下载这些模型
- decoder_model_merged_quantized.onnx
- embed_tokens_quantized.onnx
- encoder_model_quantized.onnx
- vision_encoder_quantized.onnx
配置插件
如果您的机器可以访问 huggingface, 则无需做此步骤
点我查看👈
填写存放模型的路径 例如 D:\models
填写模型名称 florence
选择下载的模型的精度