Reference

Coverage

內容商應當最在意的指標 - 顯示了所有物品有多少被推薦出去，指標有很多種方式定義，以下是最簡單的一種定義(同時也被使用在RecModel中)

from : 推薦系統實踐

by category - category coverage.

by - popularity level - popularity level coverage.

能夠被離線計算的指標，通常看Recall，來評估在訓練集所收集的時間區段中，平均每$a$個使用者點擊會有$b$個是系統推薦

這兩個指標是以點擊數量作為評估標準，容易失準的地方就是有的使用者很愛點擊東西，或是有機器人一直點擊，會把點擊數衝高

from : 推薦系統實踐

$$ \frac{#~hits}{#~users} $$

$#~hits$ : 推薦列表N在確實有涵蓋使用者點擊 $#~users$ : 使用者數量

同Recall，但以使用者數量作為評估基準，單個使用者就算有30個點擊且系統推薦出5個，hits不會是5，仍然是1

幾何觀點 - ROC 曲線下的面積 (True Positive Rate vs False Positive Rate)
機率 & 組合觀點 - 給定一個正樣本和副樣本對，在 x % 的比例下，模型對於正樣本的預測分數會高於負樣本的預測分數
- 實際分數不重要，相對關係比較重要
- 通常點擊模型的 AUC 低於購買轉化的 AUC，正負樣本之間的平均 GAP 越大， AUC 就會越大
所有的 postive-negtive pair 在計算上是等價的，這可能不實際，例如 userA 和 userB, or sessionA 和 sessionB，解決方案是 group normalized AUC