大模型部署/微调求指导
接了导师需求,大概是做一个多模态任务(原本是一个简单的回归任务,然后想利用大模型对回归结果做解释说明),调研了本领域几篇文献对大模型的利用方式包括:纯推理、做微调、利用大模型输出的 hidden states、logits做回归的。 实验室算力也就双卡4090,如果希望能覆盖上述
微调 - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 钛刻科技 | TCTI.cn - 钛刻 (TCTI.cn) 为您提供最前沿的硬核科技资讯、深度评测和未来技术趋势分析。
共 9 篇相关文章
接了导师需求,大概是做一个多模态任务(原本是一个简单的回归任务,然后想利用大模型对回归结果做解释说明),调研了本领域几篇文献对大模型的利用方式包括:纯推理、做微调、利用大模型输出的 hidden states、logits做回归的。 实验室算力也就双卡4090,如果希望能覆盖上述
本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容: 我的帖子已经打上 开源推广 标签: 是 我的开源项目完整开源,无未开源部分: 是 我的开源项目已链接认可 LINUX DO 社区: 是 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是 以上选择我承诺
最近在学习模型的微调,看到那些去除道德限制版的模型,搜了很久一直没搞明白咋弄的,佬们,有啥思路吗 5 个帖子 - 3 位参与者 阅读完整话题
豆包专家提供素材灵感,哈基米3.1提供后期微调帮助 这次你将严格遵循央视顶级解说文案的底层创作逻辑,全程专注纯文字打磨,彻底脱离演讲口语化属性。收到我后续提出的任何具体创作主题后,按照以下标准产出内容: 一、 标题与篇幅架构 1. 设立主副标题:采用「意象主干 + 实体落脚」的结
情况是:试过WSL中运行Codex,idea直接打开WSL中的项目微调测试,相关软件都是装Ubuntu(maven、jdk。。。)各种问题。 项目是老项目,功能是新功能。代码风格要保持一致,所以要review AI写的代码,感觉我是在给AI打工,它写完我就看半天 。 为什么弄成这
佬们,有没有模型微调课程啊,最近逛招聘软件发现挺多岗位需要模型微调这个技能的,然后再多问一句就是学习这个技能有没有什么前提啊,比如说需要先会什么再来学这个 1 个帖子 - 1 位参与者 阅读完整话题
想要绘制出效果好的,可以直接微调使用的prompt 1 个帖子 - 1 位参与者 阅读完整话题
最近在用 Cursor 、Claude Code 这类工具改前端界面的时候,我越来越觉得,真正麻烦的不是从 0 生成一个页面,而是最后那一段很细的界面微调。 比如这种场景: 某个按钮再往右一点 两张卡片之间的 gap 再大一点 标题和下面说明文的距离不太对 某个 tag 看起来太
【 点此直达升级教程 】 IT之家 4 月 14 日消息,苹果今日向 iPhone 和 iPad 用户推送了 iOS / iPadOS 26.5 开发者预览版 Beta 2 更新(内部版本号:23F5054d/23F5054h),本次更新距离上次发布 Beta / RC 间隔 1