解析デモはこちら 開発blogはこちら wordpress用プラグインはこちら
オプション等の説明
target="_blank"を追加
そのままの意味。出力結果が<a href="http/ja.wikipedia.org" target="_blank">となります。
半角全角強制変換(若干精度が向上します)
wikipediaはカタカナは全角、数字は半角で登録されています。入力文がマッチするように変換します。
たとえば10月10日(全角)は10月10日(半角)に変換されます。
しかしながら、6カ国協議は6カ国協議にはなりますが、六カ国協議にはなりません。
したがってこの点ではマッチしません。入力文の修正をお願いします。
リンク同士の間にスペースを入れる
例えば「東京都千代田区」を解析すると東京都千代田区となりますが、これは 東京都と千代田区が隣合っているだけです。
非常に見にくく誤解を与える可能性もありますので、このオプションで間にスペースをいれて「東京都 千代田区」と表示します。
既出リンクを抑止する
一つの解析結果で同じ単語のリンク複数ある場合「松島や ああ松島や 松島や」などとなりますが、これを抑止します。
チェックが入っている場合は「松島や ああ松島や 松島や」 となります。
改行を<br>に変更
解析元の文の改行を<br>に置換します。
改行で気をつけなければいけないのは文の途中に改行が入った場合、解析がそこで止まってしまうことです。
例えば「イスタンブール歴(改行)史地区」を解析すると「イスタンブール歴<br>史地区」となってしまいます。
これは「イスタンブール歴史地区」と続けて書けば「イスタンブール歴史地区 」のように正常に解析できます。
その他
wikipediaの項目に対してこの自動リンクは対応している単語が少ない気がします。
データーの枝切を結構やっています。(当文章執筆時に33000件程除外してます)
まずは同字異訓(?)、同じ字で別の意味を示すものが結構あります。
例えば緑が丘駅は北海道、東京都、兵庫県、千葉県にそれぞれ存在し、wikipediaにも項目があります。
このような場合は曖昧さ回避のためのページに飛ぶ形になります。
またwikipediaには「1、10、100、あ、い、う、え、お」等のエントリーがありますが、この辺も抑止しています。
このページの出力結果をblog等で使っていいの?
Wikipediaから生成した辞書を使ってますので、GFDLとして公開しなければならない可能性があります。
ライセンスの詳細はWikipediaで調べてください。
また、IPADICから派生した辞書も合わせて使用しておりますので、IPADICのライセンス関連をお読みの上、自己責任でご利用ください。
多くの場合はGFDLに伴う出展元と履歴(恐らくwikipediaへのリンクと履歴を判別するために当サイトで使用してあるデーターの日付)を明示すれば問題無いと思われます。
このページの出力結果をwikipediaへ投稿してもいいの?
恐らく問題はない筈ですが、当プログラムはIPADICも使用しております。
IPADICのライセンス関連を調べました。
法に違反する以外の使用法は恐らく大丈夫だと思いますが、当方は一切の責任を持ちません。自己責任の上ご利用ください。
繋がらなかったりすることがあるのですが
当方は回線がADSLで古いPCを使って鯖を運用しています。
雷が鳴ったり、電話が掛かってきたり、ルーターに高付加がかかると回線が切断されます(泣
時間帯や辞書の再構成等を行う場合、非常に重い時があります。
その時はあきらめてください。
リンクとか著作権とかこのサイトについて
当方へリンクを張って頂いたり紹介をしていただければ大変有難いです。(無論、無断リンクで構いません)。
当方はこのサイトで生成されたデーターについて特に権利を主張しませんが、使用辞書のWikipedia(GFDL)/IPADICの影響は受けます。
当サイトの提供するサービスは現状有姿であり、いかなる責任も負わないものとします。
予めご了承の上で自己責任の上でご利用ください。
また、当内容について変更される事があることをここに明記しておきます。
尚、精度を上げるためにプログラムの更新やデーターの再構築を頻繁に行っており、当ページ記載時の情報は必ずしも最新というわけではありません。
あらかじめご了承ください。
※当サイトではフリーの百科事典Wikipediaの2006年12月のデーターを使用しております。