第7回 IIR 読書会
- P109-134
- 5 Index compression
- @株式会社百度 (Baidu) 会議室(六本木ヒルズ20F)
- 参加者 17 名
- 前回の復習
- 6.1 Parametric and zone indexes
- 6.1.1 Weighted zone scorint
- 線形結合 ;; 要するに足し算
- 各ゾーンについて,足すと 1 になるように weight を決める
- タームのドキュメント中の出現する場所によって重みづけを決める
- 配布されてるスライドを参照すると良いらしい
- accumulators は足し算した結果が入る所
- 6.1.2 Learning weights
- training examples (学習例,教師データ)
- 「教師付き」は人力 ;; バイトにやらせる?
- g はとりあえずドロナワ式に適当に決める (後でちゃんと計算する)
- 2乗するとそれっぽい??
- マイナスを消す
- 誤差(エラー)のトータルを一番小さくするように g を選ぶ
- 6.1.3 The optimal weight g
- ハサミマーク
- g をもうちょっとちゃんと求める
- 6.1.1 Weighted zone scorint
- 6.2 Term frequency and weighting
- 6.2.1 Inverse document frequency
- レアな単語ほどweightが高い
- 6.2.2 Tf-idf weighting
- 6.9 式がキモ
- N が分かっていて,df が決まると idf が求まる
- tf-idf は量しか見てないので, 精度があまり良くない
- ドメインが決まっていれば?ゴミが出やすい
- 今どき tf-idf かよ...?
- tf-idf は量しか見てないので, 精度があまり良くない
- 6.2.1 Inverse document frequency
- 6.3 The Vector space model for scoring
- 6.3.1 Dot Products
- 6.3.2 Queries as vectors
- 6.3.3 Computing vector scores
- Figure 6.14 には本文中の Step 11 と Step 12 がない...
- 6.4 Variant tf-idf functions
- 6.4.1 Sublinear tf scaling
- 6.4.2 Maximum tf normalization
- 6.4.3 Document and query weighting schemes
- ltc とかで良いんじゃないですか?
- misc
- コンテンツ連動広告
- Vector Space Model
- シムエントリ
- 代表キーワード RIDF (パーソン分布とIDFを比較して...)
- コンテンツ連動広告