fix bugs

ku-nlp · Dec 18, 2023 · b392de1 · b392de1
1 parent df1f932
commit b392de1
Show file tree

Hide file tree

Showing 2 changed files with 5 additions and 4 deletions.
diff --git a/llm_judge/common.py b/llm_judge/common.py
@@ -130,9 +130,9 @@ def estimate_cost(self) -> float:
             )
         num_output_tokens = 200  # Estimated from a few samples
         if self.judge.model == "gpt-4":
-            return 0.03 * num_input_tokens + 0.06 * num_output_tokens / 1_000
+            return (0.03 * num_input_tokens + 0.06 * num_output_tokens) / 1_000
         elif self.judge.model == "gpt-3.5-turbo":
-            return 0.001 * num_input_tokens + 0.002 * num_output_tokens / 1_000
+            return (0.001 * num_input_tokens + 0.002 * num_output_tokens) / 1_000
         raise AssertionError
 
 

diff --git a/llm_judge/gen_judgment.py b/llm_judge/gen_judgment.py
@@ -241,7 +241,7 @@ def make_match_groups_pairwise(
             ref_answers=ref_answers,
             judge_default=Judge(args.judge_model, judge_prompts["pair"]),
             judge_math=Judge(args.judge_model, judge_prompts["pair-math"]),
-            baseline_model=args.baseline_model,
+            baseline_model=baseline_model,
         )
         output_dir = JUDGEMENT_DIR / "pairwise" / args.judge_model
     target_match_ids = set()
@@ -256,7 +256,8 @@ def make_match_groups_pairwise(
 
     logger.info(f"Mode: {args.mode}")
     logger.info(f"Judge model: {args.judge_model}")
-    logger.info(f"Baseline model: {args.baseline_model}")
+    if args.mode == "pairwise-baseline":
+        logger.info(f"Baseline model: {args.baseline_model}")
     logger.info(f"Total number of questions: {len(questions):,}")
     logger.info(
         f"Total number of matches: {sum(len(matches) for matches in match_groups.values()):,}"