[SEO] Microsoft Web N-gram 利用例
FX FROG はかつて勤務先でビッグワード「FX」「外為」「社名」をオーガニック検索施策
として、Google、Yahoo、MSN (現 Bing)、Ask、Baidu (百度)からやってくる検索クローラが
どんな文字列を収集しているのかをログ分析から着手しました。その文字列には各社さまざまで
Google だけが、アルゴリズムが欲する語彙クローラ、文節クローラ、サイト内検索クローラに
分かれて来訪していました。
(今ほど SEO 技術が確立されていない— 2005年10月頃。
私の “本名” と “SiteCatalyst 日経BP” で検索すると、私が SEO について早くから注目していた
ことをお気づきになられます)
さて、Google も2年半前に大規模日本語 n-gram データを公開(注1:商用利用不可。学術目的限定。
http://www.gsk.or.jp/catalog/GSK2007-C/catalog.html )していますが、今回の
マイクロソフト社の公開はこの規模を抜くと感じます。
n-gram (エヌ・グラム)はホームページに含まれる文章から文節、語彙を意味(目的)を
持つ共通項でクラスタ化しインデックス付けする機械的統計アルゴリズムです。
このアルゴリズムがあるから、「目的」を持った検索結果を得られやすくしています。
こうしたことを意識せずにフルスタイルシート、クラウドタグ公開、ページランクが高い
サイトからのバックリンク増、HTML-lint で機械的に文法精度向上を図るSEO 手法に
取り組んでいたとしても「目的」を持たねば検索結果でサイト順位が上昇したとしても
一時的なもので、すぐにランキングが低下しSEO業者はバックリンクサイトの追加構築
などに追われることになります。
(注2:データを得ても、それをどのような配置で組み合わせ抽出するかは SEO 施策を
図る方の腕次第)
(注3:Google n-gram コーパスお試しサイト・サブセットなので過度な期待は禁物:
http://code.google.com/p/ssgnc/wiki/Introduction?wl=ja )
===
さて前置きが長くなりました。マイクロソフトの n-gram (彼らは N-gram表記)サービスは
http://research.microsoft.com/en-us/collaboration/focus/cs/bingiton.aspx
こちらで紹介されていますが、http でリンカブルなクローラをただ散らばすのではなく、
ソーシャルメディアを対象に収集していることが記載されています。
彼らのサービスでは次のものを提供しているとのこと。
The Web N-gram services provide you access to:
- Content types: Document Body, Document Title, Anchor Texts
- Model types: Smoothed models
- N-gram availability: unigram, bigram, trigram, N-gram with N=4, 5.
- Training size (Body): All documents indexed by Bing
- Access: Hosted Services by Microsoft
- Updates: Periodical updates
すなわち、ネットで作られた造語・スラング、若者言葉、業界用語、おねぇ言葉はもとより
何をどこへどんなものを修飾しているのかまでデータ提供しています。
↓
SEO への使い方:
目的を持ったコンテンツ・クリエイティヴにおいて
「意識して多用すべき語彙、そうでない語彙」を
n-gram により決定支援することができる。
FX FROG では業界テーマ別に SEO 構築を支援しています。
以上
—