不懂就问,moe架构和dense架构,是否moe就是具有天生劣势

道听途说A​ 是用的dense架构,全激活,大D老师用的moe,moe每次只激活一部分参数,是不是就会比全激活的要差一些 4 个帖子 - 4 位参与者 阅读完整话题...
不懂就问,moe架构和dense架构,是否moe就是具有天生劣势
不懂就问,moe架构和dense架构,是否moe就是具有天生劣势

道听途说A​:divide:是用的dense架构,全激活,大D老师用的moe,moe每次只激活一部分参数,是不是就会比全激活的要差一些

4 个帖子 - 4 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文