2008-02-02 第2回 An Introduction to Information Retrieval 読書会 Event IIR P19-36 2 The term vocabulary and postings lists @はてな株式会社会議室 今回から参加の人の自己紹介 TSUBAME の話 前回の復習 たつをさんが執筆中の本のドラフトの配布 token -> type -> term Indexing と Quwery は同じ tokenizer を使え 言語の判定の問題 EUC で「美乳」 シャラポワ k-gram が魅力的な三つの理由 「the」で検索すると100億件ぐらいヒットする. 検索エンジンに index されている件数が分かる? Perl は日本語?? 日本語と英語の混ざった文をどうするか stemming と lemmatization 日本語では stemming はあまりしない 「四日市市」のパース ゆれを認識する 「赤み」と「赤い」を同じクラスとして認識する 文区切り文字の正規化 モーニング娘。, 顔文字,etc. Google の解説?