面壁智能昨天发布了MiniCPM-V 2.6模型,官方表示该模型可以全面对标GPT-4V水平。这款模型的参数仅为8B,但在单图、多图、视频理解方面取得了3 SOTA成绩。值得一提的是,MiniCPM-V 2.6首次实现了端侧AI的多模态能力。
该模型具有多项功能,包括实时视频理解、多图联合理解、多图ICL视觉类比学习等。它的最高多模态像素密度达到了类比知识密度的两倍,超过了GPT-4o的单token编码像素密度。
另外,MiniCPM-V 2.6还采用了小钢炮2.6的设计,在量化后使用了6G内存,并且其端侧推理速度较上代模型快33%。同时,在发布时就支持llama.cpp、ollama和vllm等语言进行推理,并且OCR能力延续了其SOTA性能水平,并进一步覆盖了单图、多图和视频理解等领域。
总之,MiniCPM-V 2.6是一款具备强大功能的端侧AI多模态模型,其性能已经超越了GPT-4o,并且在成本和效率上都取得了令人满意的提升。
本文属于原创文章,如若转载,请注明来源:面壁智能开源MiniCPM-V 2.6模型:端侧AI多模态能力对标GPT-4V,6G内存可用https://ai.zol.com.cn/890/8902185.html