ドクショノキロク

P150-176
8 Evaluation in information retrieval
参加者 17 名
@IBM Software Center of Competency (渋谷)
- 前回の復習
8.1 Information retrieval system evaluation
- gold standard: 評価のスタイル: relevant or unrelevant
- query と information need の区別
- チューニングに使う Test Collections と評価に使う Test Colections を分ける
8.2 Standard test collections
- TREC は業界標準
  - e.g. テロの情報を探したいという information need が与えられて...
8.3 Evaluation of unranked retrieval sets
- Precision (適合率) と Recall (再現率)
  - true positive (正しく positive と判断する), true negative (正しく negative と判断する), false positive (間違って positive と判断する), false negative (間違って negative と判断する)
  - 表 (8.3) はトイレの壁とかに貼っておくべし
  - Precision と Recall とはトレードオフの関係にある
  - 式 (8.6) : F値の業界標準
  - arithmetic mean (相加平均), geometic mean (相乗平均)
  - 図 8.1: 結局 Harmonic Mean (調和平均) が Precision と Recall の調和が取れているので良い
8.4 Evaluation of ranked retrieval results
- interpolated precision/recall (補間適合率/再現率)
  - (ある再現率レベル r での) 補間適合率:= 任意の再現率レベル r'≧r について見つかった適合率の最大値 ;; 要するに各点で max を取って揺れを除去
- MAP: Mean Average Precision
  - 適合率-再現率曲線の平均エリア
- R-Precision : トップRel個の文書の適合率を計算
  - 結局 R-Precision が最強な気がするのだけど，なぜ使われていない？
    - あらかじめ Doc Collection のサイズが分かっている必要があるから？
8.5 Assesing relevance
- kappa-統計量
  - 人によって判断のバラツキがあるかどうかを判定するのに使われる ;; 要するに一致率の検定
8.6 A broader perspective: System quality and user utility
8.7 Results snipeets
- スニペットの話はなんでこの章に？
  - IR システムのインターフェースの話の章がないので入れたのかも．
misc
- IBM Developer Works のノベルティグッズのUSB掃除機を頂きました (どうもありがとうございます)
- テキストマイニングのセミナー
- IBM Z-series
- 炎上を探す

ドクショノキロク

[Book][Lisp][AI] P248-250 PAIP

[Book][Lisp][AI] P246-247 PAIP

第113回素人くさいSICP読書会

P37-38 Essentials of Programming Languages

[Book][Lisp][AI] P242-246 PAIP

第9回 IIR 読書会

[Book][Lisp][AI] P238-242 PAIP