本周带来的 6 个模型项目分别用多模态对话、自媒体知识问答、金融领域问答、智能教育等;4 个工具项目用于大模型推理加速、图像分辨率提升、代码迁移、多智能体开发。
(资料图)
纯C++ LLM加速库fastllm,支持多种国产开源大模型,高效提高大模型推理性能
fastllm 是一个纯 C++的全平台 LLM 加速库项目,适用于各种开发环境,无第三方依赖的大模型库。目前该项目支持许多国产开源大模型,包括 ChatGLM2 6B、ChatGLM-6B、MOSS 等。其中,ChatGLM-6B 级模型单卡可达 10000+token/s,表现优异。fastllm 可以在安卓设备上流畅运行 ChatGLM-6B,并且可以在支持 CUDA 的设备上进行加速计算。该项目为开发者提供了一个高效的解决方案,可用于多种应用场景,例如自然语言处理、语音识别、机器翻译等。
获取资源:
/project/fastllm
基于GPT-4实现代码迁移工具GPT-Migrate,可实现一键迁移,无需手动修改大量代码
GPT-Migrate 是一个代码迁移工具,可以将代码库从一个框架或语言迁移到另一个框架或语言,无需手动修改大量代码,极大地节省时间和精力。该项目使用了先进的自然语言处理技术,可以理解代码的结构和语义,自动识别出相似的函数和逻辑,并生成对应的迁移代码。不管是迁移 Python 代码到 Java,还是将 TensorFlow 代码迁移到 PyTorch,GPT-Migrate 都能够提供准确可靠的迁移方案。GPT-Migrate 是基于 GPT-4 的大胆尝试,能够实现所有代码框架、编程语言的迁移,包括自动生成新的目录结构、文件命名和项目依赖包等。
获取资源:
/project/gpt-migrate
清华等开源多模态大模型系列VisCPM,支持中英双语对话和文到图生成能力
VisCPM 是由面壁智能、清华大学 NLP 实验室和知乎联合开源的多模态大模型系列,其中 VisCPM-Chat 模型支持中英双语的多模态对话能力,VisCPM-Paint 模型支持文到图生成能力,并在中文多模态开源模型中表现最佳。该模型基于百亿参数基座模型 CPM-Bee 训练,融合 Q-Former 视觉编码器和 Diffusion-UNet 视觉解码器,支持视觉信号的输入和输出。VisCPM 训练包括预训练和指令精调两个阶段,通过高质量的英文图文对数据进行预训练,并采用 LLaVA-150K 英文指令精调数据对模型进行指令精调,以对齐模型多模态基础能力和用户使用意图。
获取资源:
/project/viscpm
开源跨平台图片无损放大工具Final2x,多模型支持,可将图像超分辨率提升到任意大小
Final2x 是一款开源、跨平台的图片无损放大工具,内置多个模型,基于 AI 人工智能,能够将图片提升分辨率到任意尺寸,增强图像的分辨率和质量,使图像更清晰、更详细。该工具当前支持 RealCUGAN、RealESRGAN、Waifu2x、SRMD 等多个 AI 模型,适用于 Windows x64/arm64、MacOS x64/arm64 和 Linux x64 等多个平台。使用 Final2x,开发者可以方便地对图像进行放大处理,根据自己的需要设置图片的放大倍数,同时保持图片的无损放大。
获取资源:
/project/final2x
多角色元编程框架MetaGPT,给定需求可一键生成产品文档、架构设计、任务列表、代码
MetaGPT 是一个多智能体元编程框架,可解决复杂编程流程的自动化。MetaGPT 能够模拟产品经理、架构师、项目经理、工程师等角色,自动监督代码生成,提升代码质量。MetaGPT 能够一键进行市场调研、竞品分析、架构设计等环节,结合现实情况,智能分析生成代码的类型、适用人群和功能需求,大大降低开发成本。MetaGPT 在模拟现实软件开发过程中变量更多,监督效果更佳,生成输出的结果更具优势。但该项目当前仍处于开发环节,尚不能完全代替人工开发。
获取资源:
/project/metagpt
针对自媒体领域进行特殊训练的中文大模型Media LLaMA,掌握自媒体知识
Media LLaMA 是一个针对自媒体领域进行特殊训练的模型,旨在解决自媒体创作、直播和运营等领域缺乏专业训练数据的问题。该模型首先在大规模自媒体语料上进行连续预训练,然后利用 ChatGPT 收集了一批关于自媒体知识问题的分析和回答,并使用这些数据对以 Chinese-LLaMA-7B 为基础进行指令微调,使其习得如何将自媒体知识应用到实际场景中。Media LLaMA 掌握自媒体知识,能够以通俗易懂的语言解释自媒体概念,并进行基础的自媒体运营咨询,涵盖内容创作、平台运营、广告投放等领域。
获取资源:
/project/media-llama
基于中文金融知识的LLaMA微调模型Cornucopia,提高金融领域问答效果
Cornucopia(聚宝盆) 是一个基于中文金融知识的 LLaMA 微调模型,涉及 SFT、RLHF、GPU 训练部署等。该项目开源了基于 LLaMA 系基模型经过中文金融知识指令精调/指令微调的微调模型。团队通过中文金融公开问答数据+爬取的金融问答数据构建指令数据集,并在此基础上对 LLaMA 系模型进行了指令微调,提高了 LLaMA 在金融领域的问答效果。当前项目发布了基于 Chinese-LLaMA 和中文金融数据进行指令微调的模型、基于 Meta-LLaMA 和中文金融数据进行指令微调的模型。后续 Cornucopia 还会陆续发布新的中文场景的金融模型,包括 next-pretrain、multi-task SFT、RLHF 等。
获取资源:
/project/cornucopia-llama-fin-chinese
教育垂直领域的对话大模型EduChat开源,基于BELLE继续训练,实现自动出题、作业批改等教育场景
EduChat 是一款针对教育垂直领域的对话大模型,由华东师范大学计算机科学与技术学院的 EduNLP 团队研发。该项目主要研究以预训练大模型为基底的教育对话大模型相关技术,融合多样化的教育垂直领域数据,辅以指令微调、价值观对齐等方法。EduChat 提供教育场景下自动出题、作业批改、情感支持、课程辅导、高考咨询等丰富功能,服务于广大老师、学生和家长群体,助力实现因材施教、公平公正、富有温度的智能教育。该模型基于 BELLE 进行继续训练,具有较高的准确率和性能表现。
获取资源:
/project/educhat
用于医学图像的自监督学习大规模视觉预训练模型LVM-Med,可用于2D-3D分割、图像分类和目标检测等下游任务
LVM-Med 是一个基于二阶图匹配的自监督学习大规模视觉预训练模型,专为医学影像领域而设计。该模型使用近 55 个数据集中约 130 万张医学图像进行训练,并采用二阶图匹配公式,将当前的对比学习和基于实例的自监督学习方法进行统一。项目提供了 LVM-Med 的预训练模型,并演示了在 2D-3D 分割、线性/完全微调的图像分类和目标检测等下游任务中的应用。
获取资源:
/project/lvm-med
苏黎世理工提出SAM-PT,利用点追踪器将SAM模型扩展到视频领域的分割模型
SAM-PT 是一个基于 SAM 模型的视频分割模型,利用最先进的点追踪器预测稀疏点轨迹,将 SAM 扩展到视频领域。SAM 是一个强大的图像分割基础模型,它可以在不需要标注的情况下,对任何图像中的任何物体进行分割。SAM-PT 是第一种将稀疏点追踪与 SAM 相结合用于视频分割的方法,只要在视频中点几下鼠标,SAM-PT 就能分割并追踪物体的轮廓。SAM-PT 的出现为计算机视觉领域带来了新的可能性和发展空间,可用于视频分割、视频跟踪等多种应用场景。
获取资源:
/project/sam-pt
网页端访问: 在浏览器地址栏输入新版站点地址 ,即可前往「SOTA!模型」平台,查看关注的模型是否有新资源收录。
移动端访问:在微信移动端中搜索服务号名称「机器之心SOTA模型」或 ID 「sotaai」,关注 SOTA!模型服务号,即可通过服务号底部菜单栏使用平台功能,更有最新AI技术、开发资源及社区动态定期推送。