第7回 IIR 読書会

  • P109-134
  • 5 Index compression
  • @株式会社百度 (Baidu) 会議室(六本木ヒルズ20F)
  • 参加者 17 名
  • 前回の復習
  • 6.1 Parametric and zone indexes
    • 6.1.1 Weighted zone scorint
      • 線形結合 ;; 要するに足し算
      • 各ゾーンについて,足すと 1 になるように weight を決める
      • タームのドキュメント中の出現する場所によって重みづけを決める
        • 配布されてるスライドを参照すると良いらしい
      • accumulators は足し算した結果が入る所
    • 6.1.2 Learning weights
      • training examples (学習例,教師データ)
      • 「教師付き」は人力 ;; バイトにやらせる?
      • g はとりあえずドロナワ式に適当に決める (後でちゃんと計算する)
      • 2乗するとそれっぽい??
        • マイナスを消す
      • 誤差(エラー)のトータルを一番小さくするように g を選ぶ
    • 6.1.3 The optimal weight g
      • ハサミマーク
      • g をもうちょっとちゃんと求める
  • 6.2 Term frequency and weighting
    • 6.2.1 Inverse document frequency
      • レアな単語ほどweightが高い
    • 6.2.2 Tf-idf weighting
      • 6.9 式がキモ
      • N が分かっていて,df が決まると idf が求まる
        • tf-idf は量しか見てないので, 精度があまり良くない
          • ドメインが決まっていれば?ゴミが出やすい
          • 今どき tf-idf かよ...?
  • 6.3 The Vector space model for scoring
    • 6.3.1 Dot Products
    • 6.3.2 Queries as vectors
    • 6.3.3 Computing vector scores
      • Figure 6.14 には本文中の Step 11 と Step 12 がない...
  • 6.4 Variant tf-idf functions
    • 6.4.1 Sublinear tf scaling
    • 6.4.2 Maximum tf normalization
    • 6.4.3 Document and query weighting schemes
      • ltc とかで良いんじゃないですか?
  • misc
    • コンテンツ連動広告
    • シムエントリ
      • 代表キーワード RIDF (パーソン分布とIDFを比較して...)