[ トップページ ]
Web とインターネット:Wikipedia (ウィキペディア), 数学・計算・情報学・プログラミング:オペレーティングシステム, 数学・計算・情報学・プログラミング:検索・抽出・組織化

Windows 7 製品版のインストールと 10 GB メモリによる日本語 Wikipedia 全体の検索

メモリ上での Wikipedia 検索と Windows 7 をめざした,あたらしいマシン」 という項目で Windows 7 のマシンをたちあげて,Wikipedia の検索をこころみていることを書いた. 最近,Windows 7 は製品版にのせかえ,Wikipedia 検索はやっと全体を検索できるところまできた.

これまで Windows 7 の RC 版をつかってきた. 製品版がでまわるようになったので,あらためて Home Premium の OEM 版にのせかえた. RC 版ととくにかわったことはおこっていない.

Wikipedia 検索に関しては,まえにかいたときは,8 GB のメモリをつかっても,日本語 Wikipedia の一部だけしか検索できなかった. 16 GB のせられるマシンではあるが,そのためには 4 GB のモジュールを 4 個,つまなければならない. まだ 4 GB のは 1 万円以上しているので躊躇する. しかし,それを 1 枚だけ買ってのせてみた. マシンとの相性で問題がおこりやすいときいていたので,問題が発生したら交換できるようにオプションをつけたうえで買ったが,問題はおこらなかった. ただ,2 GB のモジュールが CL5 であるのに対して,4 GB のは CL6 であり,つかってみると格段におそい気がする.

WikipediaSearchExample.jpg ともかく,10 GB のメモリをのせて,かつ検索アルゴリズムを改良してメモリ必要量をへらし,やっと日本語 Wikipedia 全体をメモリにのせて検索できるようになった. 検索時間はまだ十分はやいとはいえないが,むしろ検索結果がしぼれないことが問題だ. たいていの検索で数 100 項目の結果がえられる. そのテキスト量や転送にかかる時間がおおきすぎる. うまくいったら Web で公開したいとかんがえているが,いまのままでは困難だ.

検索結果のさわりだけ,ここにのせておくことにしよう. 「漱石」 を年代軸で検索した結果だ. 以前の 「軸づけ検索」 とは検索法はちがっているが,検索結果を年代順に整列させている点ではおなじだ.

関連ページ (2009-12-13 追記):

キーワード: テキスト検索, テキストサーチ, 軸づけ検索, 軸付け検索, 百科事典検索, 検索結果組織化, 組織化検索, 整列, 検索結果構造化, 構造化検索

トラックバック

このエントリーのトラックバックURL:
http://www.kanadas.com/mt/mt-tb.cgi/4267

コメントを投稿

Google でブログを検索:

メインページアーカイブページも見てください.
Creative Commons License
このブログはつぎのライセンスで保護されています. クリエイティブ・コモンズ・ライセンス.
Powered by
Movable Type