第7回 IIR 読書会 - ドクショノキロク

P109-134
5 Index compression
@株式会社百度 (Baidu) 会議室(六本木ヒルズ20F)
参加者 17 名
前回の復習
6.1 Parametric and zone indexes
- 6.1.1 Weighted zone scorint
  - 線形結合 ;; 要するに足し算
  - 各ゾーンについて，足すと 1 になるように weight を決める
  - タームのドキュメント中の出現する場所によって重みづけを決める
    - 配布されてるスライドを参照すると良いらしい
  - accumulators は足し算した結果が入る所
- 6.1.2 Learning weights
  - training examples (学習例,教師データ)
  - 「教師付き」は人力 ;; バイトにやらせる?
  - g はとりあえずドロナワ式に適当に決める (後でちゃんと計算する)
  - 2乗するとそれっぽい??
    - マイナスを消す
  - 誤差(エラー)のトータルを一番小さくするように g を選ぶ
- 6.1.3 The optimal weight g
  - ハサミマーク
  - g をもうちょっとちゃんと求める
6.2 Term frequency and weighting
- 6.2.1 Inverse document frequency
  - レアな単語ほどweightが高い
- 6.2.2 Tf-idf weighting
  - 6.9 式がキモ
  - N が分かっていて，df が決まると idf が求まる
    - tf-idf は量しか見てないので, 精度があまり良くない
      - ドメインが決まっていれば？ゴミが出やすい
      - 今どき tf-idf かよ...?
6.3 The Vector space model for scoring
- 6.3.1 Dot Products
- 6.3.2 Queries as vectors
- 6.3.3 Computing vector scores
  - Figure 6.14 には本文中の Step 11 と Step 12 がない...
6.4 Variant tf-idf functions
- 6.4.1 Sublinear tf scaling
- 6.4.2 Maximum tf normalization
- 6.4.3 Document and query weighting schemes
  - ltc とかで良いんじゃないですか？
misc
- コンテンツ連動広告
  - Vector Space Model
- シムエントリ
  - 代表キーワード RIDF (パーソン分布とIDFを比較して...)