请问评测的原理是什么呀，是人工打分的吗，如果是客观题是直接比较返回的答案的字符串，主观题是人工评判答案吗 #47

starplatinum3 · 2024-07-26T06:29:37Z

No description provided.

elmliu · 2024-08-16T04:35:10Z

参考项目论文实验的Evaluation Metrics部分，封闭式选择题就是算准确度，开放式的题目用GPT4判断两两模型间谁的回答更优秀，计算每个模型的胜出率

Cloud-Iris · 2024-12-25T03:15:22Z

原论文中有详细的介绍，在这里：

在附录中也有一部分是关于 Evaluation Metrics 的。这个 issue 感觉可以 close 了。

Provide feedback