1.
基于大语言模型的能力特点,很难避免边缘场景下的badcase,针对不同业务场景需要设置合理的关键优化指标(准确率、一致率、满足率等等)从而双方达成一致的上线标准预期
2.
通过批量测试,对当前场景的能力现状有更加客观和全面的了解,以便定位问题推进效果提升
3.
此阶段下为了达到上线标准往往需要更深度的合作和配合,包括但不限于客户提供针对性的数据由MiniMax开放平台对模型进行finetune,以及调整预训练阶段的数据权重及参数
4.
当前MiniMax的模型迭代为每周一个版本,在制定上线目标后,所有的迭代均以此目标为准不断推进直至达标