prolog二分木から、新たな文章を二分木で作る

先月からすったもんだしてやってきた、日本語wikipediaの本文全部とtwitterの一億一千万ツイートをprolog二分技化するという作業がひと段落したので、本来の目的であって、これらを部分知識として利用して言葉を作成するという作業に入りたい。

prologには、二分木を作り出すというアルゴリズムがある。言葉を作り出すというのを、二分木創造の考え方を利用する。言葉づくりの人工知能には、ディープラーニングを利用したものもあるが、あまり好かない。言葉は、左脳の作業、ロジカルな作業なのだから、ディープラーニングやニューラルネットワークを直接応用するのは少し外れている気がする。もちろん、いずれは使う。言葉を利用する人間の脳は、論理ばかりで操っているわけではないだろうから、直感的な作用の結果でもあると思うからである。

日本語wikipedia本文のprolog二分木も作り直した

前のバージョンでは、いくつか検索結果がおかしくなっていたことは書いたが、それを改良したので、日本語wikipediaの二分木データを全て作り直した。前回は、なんやかんやで、一週間か十日ほどかけていたが、今回は、半日で全部作り直せた。

これに伴い、検索結果を示すウェッブページも若干変えた。(ファイルを3分割し、ポートを変えて三つのサーバーを立てて検索するようにした)左のメニューから飛ぶことができる。

以下のような感じで出力される。前は「ロボット」「は」、の検索の最初の結果がおかしかったが、今度はちゃんと「wiki_1_line_3385_2: ロボットは/いわゆる脳を持たないにも関わらずまるで/生きているかのように行動する// 」と出力していることがわかるだろう。