in between days

表参道で働くシニアのブログ

キーワードは「誤爆」する。

その他の意見として、「おかしなますだおかだ」と書いた場合に「ますだおかだ」よりも「なます」が優先的に抽出されてしまう弊害などの指摘がございましたが、こうした本来の意図と違う抽出はどちらの方式を採用しても起こり得ること、

はてなダイアリー日記 - キーワード自動リンクのためのキーワード抽出アルゴリズムについて

キーワード抽出方法が「最左最長優先」に正式に決まったことで、トラックバックとかブックマークとかを見ると、キーワードの誤爆がいっそう増えることが懸念されている。

でもこの問題の本質は「誤爆」そのものではないんじゃないだろうか。

誤爆は回避できる

例えば上の例なら

[]おかしな[][[ますだおかだ]]

というようにキーワード記法を使うことで、正しく

おかしなますだおかだ

とキーワードリンクさせることができる。

「面倒だ!」

と怒る人もいるだろう。でもそれはそういうものなのだ。はてな自身が言うように

本来の意図と違う抽出はどちらの方式を採用しても起こり得る

のであって、つまりキーワードは本質的に誤爆するものなのだ。

はてなキーワードはそういうものと割り切った上でつきあっていくしかない。どうしても気になるのなら、キーワード記法を使うなり、キーワードリンクが目立たなくなるようにCSSに手を入れたりしながら誤爆を「回避する」のが現実的な解だろう。

セクションカテゴリからのキーワード抽出の誤爆は回避できない

ではなにが問題の本質だったのかというと、“はてな夢日記”や“[はてな”というキーワードが、日記のタイトルに付けられた「セクションカテゴリ」をキーワードとして抽出させるために使われている、というこの捻りの入った“はてなっぽい”利用方法にある。

なぜならキーワードカテゴリが書かれる場所(見出し)では、“[” や “]” が特別な意味を持つため、キーワード記法による回避が不可能になる。つまり「どうやっても不可避な誤爆」が起こるというところに問題がある。

ということで過去のエントリを再掲するけど、セクションカテゴリの抽出をキーワードまかせにしているという実装の捻れに問題の根っこはあって、抜本的にはセクションカテゴリを「タグ」と見なして抽出方法を見直す、などを期待したいところです。