第3回 An Introduction to Information Retrieval 読書会

  • P37-56
  • 2 The term vocabulary and postings lists
  • @株式会社DeNA会議室
    • 初台じゃなく笹塚
      • 立派な縦長の会議室でサミットみたい??
  • 前回の復習
    • 2.3 Faster postings list interaction via skip pointers
      • skip pointer を置いておくとぴょんぴょん飛べて便利
      • skip pointer の個数のトレードオフ
    • 2.4 Positional postings and phrase queries
      • false positive
      • 検索にゴミがヒットしてしまう
        • positive/negative が判定に関する述語
        • true/false それが正しいかどうか
      • true positive とか大人語っぽい??
      • part-of-speech-tagging (POSタギング)
    • biword index はチェックのコストがあるが phrase index はこれを削減
    • phrase index は長さの上限を決めたりメンテが大変
    • T はドキュメント(のあつまり)に含まれているトークンの数
    • N はドキュメントの数
      • 複雑さのレベルが上がる
    • next word index
  • 書籍:情報検索アルゴリズム isbn:9784320120365 の紹介
  • 3 Dictionaries and tolerant retrieval
    • 逐次訳欲しい!
    • V が重要
    • 効果的な検索のためには balancing が重要
    • アップデートが頻繁な時は二分木より B-木が有利
    • 後から rebalancing とかするくらいなら最初から trie 使う
      • 多言語処理の場合は trie が有利らしい
    • Wild Card Query
      • 日本語で Wild Card Query とかしたりするのか?
    • Permuterm Indexes (順序入れ換えインデックス)
      • 辞書がやたら巨大になる...
    • k-gram indexes
    • 入れた単語の permuterm を提供する API ???