第3回 An Introduction to Information Retrieval 読書会
- P37-56
- 2 The term vocabulary and postings lists
- @株式会社DeNA会議室
- 初台じゃなく笹塚
- 立派な縦長の会議室でサミットみたい??
- 初台じゃなく笹塚
- 前回の復習
- 2.3 Faster postings list interaction via skip pointers
- 2.4 Positional postings and phrase queries
- biword index はチェックのコストがあるが phrase index はこれを削減
- phrase index は長さの上限を決めたりメンテが大変
- T はドキュメント(のあつまり)に含まれているトークンの数
- N はドキュメントの数
- 複雑さのレベルが上がる
- next word index
- Hyper Estraier で実装されているらしい
- 書籍:情報検索アルゴリズム isbn:9784320120365 の紹介
- 3 Dictionaries and tolerant retrieval
- 逐次訳欲しい!
- V が重要
- 効果的な検索のためには balancing が重要
- アップデートが頻繁な時は二分木より B-木が有利
- 後から rebalancing とかするくらいなら最初から trie 使う
- 多言語処理の場合は trie が有利らしい
- Wild Card Query
- 日本語で Wild Card Query とかしたりするのか?
- Permuterm Indexes (順序入れ換えインデックス)
- 辞書がやたら巨大になる...
- k-gram indexes
- 入れた単語の permuterm を提供する API ???