Skip to content

Latest commit

 

History

History
59 lines (35 loc) · 2.41 KB

rec_metrics.md

File metadata and controls

59 lines (35 loc) · 2.41 KB

Reference

Recommender Playground from yltsai

推薦系統實踐 - 項亮 2010

Coverage

內容商應當最在意的指標 - 顯示了所有物品有多少被推薦出去,指標有很多種方式定義,以下是最簡單的一種定義(同時也被使用在RecModel中)

from : 推薦系統實踐

different version coverage

by category - category coverage.

by - popularity level - popularity level coverage.

Recall & Precision

能夠被離線計算的指標,通常看Recall,來評估在訓練集所收集的時間區段中,平均每$a$個使用者點擊會有$b$個是系統推薦

這兩個指標是以點擊數量作為評估標準,容易失準的地方就是有的使用者很愛點擊東西,或是有機器人一直點擊,會把點擊數衝高

from : 推薦系統實踐

Hit Ratio

$$ \frac{#~hits}{#~users} $$

$#~hits$ : 推薦列表N在確實有涵蓋使用者點擊 $#~users$ : 使用者數量

同Recall,但以使用者數量作為評估基準,單個使用者就算有30個點擊且系統推薦出5個,hits不會是5,仍然是1

slim 2011

AUC

乱弹机器学习评估指标AUC 570+ 【技术分享】六:搜索排序—指标介绍与选择

  • 幾何觀點 - ROC 曲線下的面積 (True Positive Rate vs False Positive Rate)
  • 機率 & 組合觀點 - 給定一個正樣本和副樣本對,在 x % 的比例下,模型對於正樣本的預測分數會高於負樣本的預測分數
    • 實際分數不重要,相對關係比較重要
    • 通常點擊模型的 AUC 低於 購買轉化的 AUC,正負樣本之間的平均 GAP 越大, AUC 就會越大
  • 所有的 postive-negtive pair 在計算上是等價的,這可能不實際,例如 userA 和 userB, or sessionA 和 sessionB,解決方案是 group normalized AUC

線上線下指標對齊何校正

  1. 線下指標要對應到線上指標,產生高相關係數,才可繼續優化 offline metrics
  2. 審慎 review training, val dataset,沒有考慮時間時,容易造成穿越
  3. 排除 bug,線上線下預測要符合預期