『吾輩は猫である』冒頭のprolog化

作成したJAVAプログラムJPrologで、夏目漱石「吾輩は猫である」の冒頭部分のパラグラフ全体をprolog化してみた。KNPが一度の処理を300字くらいを限界にしているので、パラグラフ全体を一挙にはできず、文章一つづつのprolog化になり、全体で3.5秒ほどかかった。

まだ、形態素解析の部分や、ノードとリーフの語の形成に不満はあるが、それは後でじっくり治していこうと思う。まず、どれだけやれるのかを確かめたい。この後、さらに長い文書をやらせようと思っている。

swiprologに読み込ませたが、いくつか問題を克服したのち、以下の状態では、正常に読み込んでいる。主に問題は、動詞の活用形と原型のリストをめぐってのものだった。仕様を、いかに記載したように改訂した。

plsample(line0,
    node(は,
        吾輩,
        node(である,
            猫,
            [ ]
        )
    )
).
plsample(line1,
    node(は,
        名前,
        node([],
            まだ,
            node([],
                無い,
                [ ]
            )
        )
    )
).
plsample(line2,
    node(か,
        node(で,
            どこ,
            [生れた, 生れる]
        ),
        node([],
            とんと,
            node(が,
                見当,
                node(ぬ,
                    [つか, つく],
                    [ ]
                )
            )
        )
    )
).
plsample(line3,
    node(だけは,
        node(いた,
            node([],
                node(で,
                    node([],
                        node([],
                            node([],
                                node([],
                                    何でも,
                                    薄暗い
                                ),
                                じめじめ
                            ),
                            [した, する]
                        ),
                        所
                    ),
                    ニャーニャー
                ),
                [泣いて, 泣く]
            ),
            事
        ),
        node(いる,
            [記憶, [して, する]],
            [ ]
        )
    )
).
plsample(line4,
    node(は,
        吾輩,
        node(で,
            ここ,
            node([],
                [始めて, 始める],
                node(を,
                    node([],
                        node(と,
                            人間,
                            いう
                        ),
                        もの
                    ),
                    node([],
                        [見た, 見る],
                        [ ]
                    )
                )
            )
        )
    )
).
plsample(line5,
    node(しかも,
        [],
        node(と,
            node(で,
                あと,
                聞く
            ),
            node(は,
                それ,
                node(と,
                    書生,
                    node([],
                        いう,
                        node(中で,
                            人間,
                            node([],
                                一番,
                                node(な,
                                    獰悪,
                                    node(であったそうだ,
                                        種族,
                                        [ ]
                                    )
                                )
                            )
                        )
                    )
                )
            )
        )
    )
).
plsample(line6,
    node(は,
        node(と,
            node([],
                この,
                書生
            ),
            いうの
        ),
        node(を,
            node([],
                時々,
                我々
            ),
            node([],
                [捕まえて, 捕まえる],
                node([],
                    [煮て, 煮る],
                    node(と,
                        食う,
                        node([],
                            いう,
                            node(である,
                                話,
                                [ ]
                            )
                        )
                    )
                )
            )
        )
    )
).
plsample(line7,
    node(しかし,
        [],
        node(は,
            node([],
                その,
                当時
            ),
            node([],
                node([],
                    node([],
                        node(から,
                            node(も,
                                node(何という,
                                    [],
                                    考
                                ),
                                なかった
                            ),
                            別段
                        ),
                        恐
                    ),
                    [し, する]
                ),
                node([],
                    いとも,
                    node(なかった,
                        [思わ, 思う],
                        [ ]
                    )
                )
            )
        )
    )
).
plsample(line8,
    node(の,
        node([],
            ただ,
            彼
        ),
        node(に,
            掌,
            node(られて,
                [載せ, 載せる],
                node(と,
                    スー,
                    node(られた,
                        [[持ち, 持つ], [上げ, 上げる]],
                        node([],
                            時,
                            node([],
                                何だか,
                                node([],
                                    フワフワ,
                                    node([],
                                        [した, する],
                                        node(が,
                                            感じ,
                                            node(ばかりである,
                                                [あった, ある],
                                                [ ]
                                            )
                                        )
                                    )
                                )
                            )
                        )
                    )
                )
            )
        )
    )
).
plsample(line9,
    node(の,
        掌,
        node(で,
            上,
            node(の,
                node([],
                    node([],
                        少し,
                        [落ちついて, 落ちつく]
                    ),
                    書生
                ),
                node(を,
                    顔,
                    node(が,
                        [[見た, 見る], の],
                        node(いわゆる,
                            [],
                            node(と,
                                人間,
                                node([],
                                    いう,
                                    node(の,
                                        もの,
                                        node(であろう,
                                            見始め,
                                            [ ]
                                        )
                                    )
                                )
                            )
                        )
                    )
                )
            )
        )
    )
).
plsample(line10,
    node(が,
        node([],
            node(だと,
                node([],
                    node([],
                        node([],
                            この,
                            時
                        ),
                        妙な
                    ),
                    もの
                ),
                [思った, 思う]
            ),
            感じ
        ),
        node(でも,
            今,
            node(いる,
                [残って, 残る],
                [ ]
            )
        )
    )
).
plsample(line11,
    node(れ,
        node([],
            node(を,
                第一毛,
                [もって, もつ]
            ),
            [装飾, [さ, する]]
        ),
        node(の,
            べきはず,
            node(が,
                顔,
                node([],
                    つる,
                    node([],
                        [つるして, つるす],
                        node([],
                            まるで,
                            node(だ,
                                薬缶,
                                [ ]
                            )
                        )
                    )
                )
            )
        )
    )
).
plsample(line12,
    node(が,
        node([],
            node(にも,
                node([],
                    その後,
                    猫
                ),
                だいぶ
            ),
            [逢った, 逢う]
        ),
        node(が,
            node([],
                node(度も,
                    node(には,
                        node([],
                            こんな,
                            片輪
                        ),
                        一
                    ),
                    [出会した, 出会す]
                ),
                事
            ),
            node([],
                ない,
                [ ]
            )
        )
    )
).
plsample(line13,
    node([],
        [のみ, のむ],
        node(ず,
            [なら, なる],
            node(の,
                顔,
                node(が,
                    真中,
                    node([],
                        あまりに,
                        node(いる,
                            [突起, [して, する]],
                            [ ]
                        )
                    )
                )
            )
        )
    )
).
plsample(line14,
    node([],
        そうして,
        node(の,
            node([],
                その,
                穴
            ),
            node(から,
                中,
                node(を,
                    node(と,
                        node([],
                            時々,
                            ぷうぷう
                        ),
                        煙けむり
                    ),
                    node([],
                        吹く,
                        [ ]
                    )
                )
            )
        )
    )
).
plsample(line15,
    node(くて,
        node([],
            どうも,
            咽むせぽ
        ),
        node([],
            実に,
            node([],
                [弱った, 弱る],
                [ ]
            )
        )
    )
).
plsample(line16,
    node(が,
        これ,
        node(は,
            node(である,
                node([],
                    node(と,
                        node([],
                            node(の,
                                人間,
                                飲む
                            ),
                            煙草
                        ),
                        いう
                    ),
                    もの
                ),
                事
            ),
            node([],
                ようやく,
                node([],
                    この頃,
                    node([],
                        [知った, 知る],
                        [ ]
                    )
                )
            )
        )
    )
).

KNPのサーバーモードとJPrologの処理速度

先の記事で示した、JPrologのソースを見ていただければわかるように、JumanとKNPは、サーバーモードで起動している。理由は、その方が、JAVAからストリーム処理を真剣にしなくてもいいので、プログラムが簡素になることと、何よりも、スピードが違うらしいからである。

確かにcabochaと比べるとKNPは遅い感じはある。一つの文章を処理させるのにかかるトータルな時間は、実感としてKNPは遅いが、KNPをサーバーで立ち上げて、多分、データの読み込みなどのオーバーヘッドを吸収するので、複数の文章を処理させれば早くなりそうだ、ということである。

それでもcabochaよりは遅いのだろうが、実感としての遅さは感じない。

JAVAによるKNPをベースにしたprolog化

KNPをベースに、文章をprolog化するJPrologが一通りできた。

これまでも用いている芸人の定義をprolog化するとその出力は次のようになった。なお、プログラムそのものは、GitHubのJPrologレポジトリにおいてある。Cabochaバージョンは、これによって上書きされたので消去された。
https://github.com/toyowa/JProlog

run:
Jumanをサーバーモードでスタートさせました
KNPをサーバーモードでスタートさせました
Juman および KNP クライアントを開始しました
Juman: KILLシグナルを送りました PID = 25064
KNP: KILLシグナルを送りました PID = 25063
%%--------------------------------
%% 「芸人とは、なんらかの技芸や芸能の道に通じている人、または身に備わった技芸や芸能をもって職業とする人のことを指す日本特有の概念である」のprolog化
%%--------------------------------
No.0 芸人,とは 	Kakari:16 type:D score:991
No.1 なんらか,の 	Kakari:3 type:D score:1000
No.2 技芸,や 	Kakari:3 type:P score:1000
No.3 芸能,の 	Kakari:4 type:D score:1000
No.4 道,に 	Kakari:5 type:D score:997
No.5 [通じて, 通じる],いる 	Kakari:6 type:D score:400
No.6 人,または 	Kakari:14 type:P score:1100
No.7 身,に 	Kakari:8 type:D score:997
No.8 [備わった, 備わる],[] 	Kakari:10 type:D score:-1
No.9 技芸,や 	Kakari:10 type:P score:1000
No.10 芸能,を 	Kakari:11 type:D score:1000
No.11 [もって, もつ],[] 	Kakari:13 type:D score:-1
No.12 職業,と 	Kakari:13 type:D score:988
No.13 する,[] 	Kakari:14 type:D score:-1
No.14 人,の 	Kakari:15 type:D score:1000
No.15 こと,を 	Kakari:16 type:D score:1000
No.16 指す,[] 	Kakari:19 type:D score:-1
No.17 日本,[] 	Kakari:18 type:D score:-1
No.18 特有の,[] 	Kakari:19 type:D score:-1
No.19 概念,である 	Kakari:-1 type: score:400
%% フレーズ番号リストのトークン = [ r0 [ 1 2 3 4 5 r6 [ 7 8 r9 10 11 12 13 ] 14 15 ] 16 17 18 19 ] 
%% Prolog宣言
pl001(a01,
    node(とは,
        芸人,
        node(または,
            node(いる,
                node(に,
                    node(の,
                        node(や,
                            node(の,
                                なんらか,
                                技芸
                            ),
                            芸能
                        ),
                        道
                    ),
                    [通じて, 通じる]
                ),
                人
            ),
            node(や,
                node([],
                    node(に,
                        身,
                        [備わった, 備わる]
                    ),
                    技芸
                ),
                node(を,
                    芸能,
                    node([],
                        [もって, もつ],
                        node(と,
                            職業,
                            node([],
                                する,
                                node(の,
                                    人,
                                    node(を,
                                        こと,
                                        node([],
                                            指す,
                                            node([],
                                                日本,
                                                node([],
                                                    特有の,
                                                    node(である,
                                                        概念,
                                                        [ ]
                                                    )
                                                )
                                            )
                                        )
                                    )
                                )
                            )
                        )
                    )
                )
            )
        )
    )
).

後半のprologの宣言文は、swiprologで問題なく解釈されている。listingすると、次のようになっている。

pl001(a01, node(とは, 芸人, node(または, node(いる, node(に, node(の, node(や, node(の, なんらか, 技芸), 芸能), 道), [通じて, 通じる]), 人), node(や, node([], node(に, 身, [備わった, 備わる]), 技芸), node(を, 芸能, node([], [もって, もつ], node(と, 職業, node([], する, node(の, 人, node(を, こと, node([], 指す, node([], 日本, node([], 特有の, node(である, 概念, [])))))))))))))).

KNPの係り受け解析をもとにしている。「フレーズ番号リストのトークン」のところにある、リスト構造がわかりやすい。

(1)「芸人とは」の主語は、係り受け解析の結果から、そこでの第16番目の句にかかっているので、そこは、うまくとらえている。

(2)または、という接続詞が大きな構造を作っているが、それが「人」にかかっているところは、まあまあ、とらえている。

この後のものは、特に、cabochaでは、うまくとらえられなかったので、大いに良い。が、
「wikipedia「芸人」の定義とprolog(3)リスト処理追加」

の記事で示した、私の直感的なものよりも、何かしらもう一つ劣っている感は否めない。形態素解析ツールがmecabからjumanに変わったので、ノード語とリーフ語で、取れてないものが増えて空リスト [ ]になっているが、これは修正可能で、また、大きな問題でもない。

KNPの解説サイトで使われていた、「私は傘を買い、そして家に帰った」という文章を解析して、出力した結果は次のようなものである。

%%--------------------------------
%% 「私は傘を買い、そして家に帰った。」のprolog化
%%--------------------------------
No.0 私,は 	Kakari:4 type:D score:991
No.1 傘,を 	Kakari:2 type:D score:1000
No.2 [買い, 買う],そして 	Kakari:4 type:P score:1100
No.3 家,に 	Kakari:4 type:D score:997
No.4 [帰った, 帰る],[] 	Kakari:-1 type: score:-1
%% フレーズ番号リストのトークン = [ r0 [ 1 r2 3 ] 4 ] 
%% Prolog宣言
pl001(a01,
    node(は,
        私,
        node(そして,
            node(を,
                傘,
                [買い, 買う]
            ),
            node(に,
                家,
                node([],
                    [帰った, 帰る],
                    [ ]
                )
            )
        )
    )
).

「私は」が二つの文節にかかっている状況は捉えている。KNPの構文解析が踏まえられている。

全体として、もう少し調整する必要がある。