第2回 An Introduction to Information Retrieval 読書会

  • P19-36
  • 2 The term vocabulary and postings lists
  • @はてな株式会社会議室
  • 今回から参加の人の自己紹介
  • 前回の復習
  • たつをさんが執筆中の本のドラフトの配布
  • token -> type -> term
    • Indexing と Quwery は同じ tokenizer を使え
  • 言語の判定の問題
    • EUC で「美乳」
  • シャラポワ
  • k-gram が魅力的な三つの理由
  • 「the」で検索すると100億件ぐらいヒットする.
    • 検索エンジンに index されている件数が分かる?
    • Perl は日本語??
    • 日本語と英語の混ざった文をどうするか
  • stemming と lemmatization
    • 日本語では stemming はあまりしない
    • 四日市市」のパース
    • ゆれを認識する
      • 「赤み」と「赤い」を同じクラスとして認識する
    • 文区切り文字の正規化
    • モーニング娘。, 顔文字,etc.
  • Google の解説?