大規模コーパスとjuman++

この間、形態素解析システムをjumanからjuman++に変更した。jumanは、サーバーモードで動かしていたが、juman++には、内臓でその機能がないので、標準ストリームをjavaで制御する方式に変更した。

日本語wikipediaの全本文など、大規模コーパスをjuman++で制御すると、いくつか深刻な問題が発生する。処理は、24スレッド、128Gメモリのubuntuマシンで処理するが、100を超えるjava スレッドごとにjuman++を立ち上げて処理する。

第1の問題は、jumanと比べ、数倍以上、遅いことである。これは、どうしようもない。プログラムを微調整して、少しでも挽回するしかない。

第2の大きな問題は、メモリを深刻に食べることだ。当初は、javaプログラムに、メモリーリークがあるのではないかと思ったが、javaのガベージコレクションは適切に機能し、メモリーも確保しているのでそちら側の問題ではないと結論づけた。juman++にメモリーリークがあるとは思えないが、どうしようもないので、一定処理ごとに、juman++を再起動し、一旦使っているメモリを解放させることで対応した。大体、1000個の文章を処理するごとに自動で再起動させている。

第3の問題は、数万の規模で文章を処理させていると、途中再起動しても、何かの拍子に、無反応になることである。エラーを吐くわけでもなく、文章を標準入力に入れても、出力しなくなる。標準エラーストリームに文章がたまるとそういうことになる経験があったのでそれかと思ったが、それを系統的に吐き出させていても発生する。これは、javaのバッファリーダーに標準出力をリダイレクトして取り込んでいるのであるが、工夫して、ready()で文章があることを確認してから読み込むようにし、一定期間(30秒)、ループが空回りすると、juman++を再起動するようにしたら、なんとかなっている。

ただ、その詰まりを起こした一つの文章は処理しないので、ちょっとした穴ができるが、全体の文章が膨大なので、影響は無視できる。

色々あっても、jumanと比べて、juman++が吐き出す形態素情報は魅力的で、それ以外のものにしようという気持ちは全く起きていない。

prolog二分木のフォーマットの改良

jumanをjuman++することによって、名詞のカテゴリ情報がより確実に組み込まれるようになり、ドメイン情報も使える。そこで、二分木のフォーマットをさらに改良することにした。それによって、会話で知識を使う道がより望ましいものになる。

変更後の二分木例を示すと次のようだ(文章はWikipediaより)

%% line = 小田を含む4名は、放送が終了したばかりのアニメ『機動戦士ガンダム』に熱中しており、まだガンプラが発売される前から同作品に登場するロボット兵器「モビルスーツ (MS)」の模型を自作していた。
%% phrases: [ r0 1 2 [ 3 4 5 r6 7 [ 8 9 10 11 12 13 14 r15 16 ] ] 17 ] 
testdoc(testline_0_0,
    node(を,
        [小田, 'S:地'],
        node([],
            [含む, 'V:含む'],
            node(は,
                [['4', 'S:数/C:数量'], [名, 'C:人']],
                node(に,
                    node([],
                        node(ばかりの,
                            node(が,
                                [放送, 'S:サ/C:抽象物/D:メディア'],
                                [[終了, 'S:サ/C:抽象物'], [した, 'V:する']]
                            ),
                            [アニメ, 'S:普/C:抽象物/D:文化・芸術']
                        ),
                        [[[機動, 'S:普/C:抽象物'], [戦士, 'S:普/C:人']], [ガンダム, 'S:固']]
                    ),
                    node([],
                        [[[熱中, 'S:サ/C:抽象物'], [して, 'V:する']], おり],
                        node(の,
                            node([],
                                node([],
                                    node(に,
                                        node(から,
                                            node([],
                                                node(が,
                                                    node([],
                                                        まだ,
                                                        [ガンプラ, 'S:普']
                                                    ),
                                                    [[[発売, 'S:サ/C:抽象物/D:ビジネス'], [さ, 'V:する']], れる]
                                                ),
                                                [前, 'S:副']
                                            ),
                                            [同, [作品, 'S:普/C:抽象物/D:文化・芸術']]
                                        ),
                                        [[登場, 'S:サ/C:抽象物'], [する, 'V:する']]
                                    ),
                                    [[ロボット, 'S:普/C:人工物-その他/D:科学・技術'], [兵器, 'S:普/C:人工物-その他/D:政治']]
                                ),
                                [[[['モビルスーツ', 'S:普'], ['(', 'S:普']], ['MS', 'S:組']], [')', 'S:普']]
                            ),
                            node(を,
                                [模型, 'S:普/C:人工物-その他'],
                                node([],
                                    [[[自作, 'S:サ/C:人工物-その他'], [して, 'V:する']], いた],
                                    [ ]
                                )
                            )
                        )
                    )
                )
            )
        )
    )
).

まず、最初の方の [小田, 'S:地']にあるように、リーフ値が名詞の場合はサブタイプをS:のヘッダをつけて、組み込むようにした。サブタイプ名は、節約のため、実際の名前の最初の1文字だけにしている。サブタイプ名は、「普通名詞, 副詞的名詞, 形式名詞, 固有名詞, 組織名, 地名, 人名, サ変名詞, 数詞, 時相名詞」だけのようなので、重なりはない。ただし、小田は地名になっているが、現実は、人名である。このように、人名か地名がわかれば、会話に利用できるのだ。

さらにカテゴリとサブタイトルが両方ある場合は、'S:サ/C:抽象物'のように/で区切って、繋げるようにした。リストにする方法も考えたが、やらた、リストがネストされるので、わかりにくくなると思い、回避した。

ドメインがある場合は、これにさらにD:のヘッダーでつなげる。[放送, 'S:サ/C:抽象物/D:メディア']あるいは[アニメ, 'S:普/C:抽象物/D:文化・芸術']という感じである。ドメインは、どういう状況の中に単語が含まれているのかがわかるので、貴重な情報である。

こうなると、二分木の中にシソーラス辞書が同時に組み込まれている感じになる。

juman++のjavaラッパー:サーバーモードも対応

prologの自然言語二分木を作るのに形態素解析はjumanでやってきた。が、前から気になっていたjuman++と比べてみたら、出力内容についてかなりの違いがあることがわかった。そこで、juman++ にしようと思ったが、jumanは自分でサーバーモードを持っていたが、juman++は、内蔵していなくて、rubyなどのラッパーで対応している。

大規模日本語コーパスの二分木づくりは、いくつものスレッドで、並列に形態素解析を行う必要がありjumanの時は、スレッドごとにjumanやknpのサーバーを立ち上げて対応した。しかし、juman++のruby経由ではうまくいかない。

そこで、juman++のjavaラッパーを作って、対応することにした。javaでjuman++を制御できれば、もともと二分木づくりはjavaでやっているので、あえてサーバーにする必要も無くなるのだが、一応、ソケット通信にも対応するようにした。

/*
Jumanpp.java
*/
import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.io.OutputStream;
import java.io.OutputStreamWriter;
import java.util.logging.Level;
import java.util.logging.Logger;

public class Jumanpp {
    //  juman++のインストールパスを指定する
    String jumanpath = "/usr/local/juman1.02/bin/jumanpp";
    OutputStreamWriter ow;
    InputStream is;
    //InputStream es;
    PrintStream pis;
    //PrintStream pes;
    
    void getOutput(String line){
        if(line.startsWith("%%CLOSE")){
            System.out.println("Jumanpp: 終了します");
            jumannppClose();
            return;
        }
        try {
            ow.write(line+"\n");
            ow.flush();
        } catch (IOException ex) {
            Logger.getLogger(Jumanpp.class.getName()).log(Level.SEVERE, null, ex);
        }
    }

    void jumannppClose(){
        try {
            pis.stopThread();
            // 標準エラーを使う場合
            //pes.stopThread();
            // スレッド終了のためのダミー
            ow.write("terminate\n");
            ow.flush();
            
        try {
            Thread.sleep(1000);
        } catch (InterruptedException ex) {
        }

            ow.close();
            is.close();
            // 標準エラーを使う場合
            //es.close();
        } catch (IOException ex) {
            Logger.getLogger(Jumanpp.class.getName()).log(Level.SEVERE, null, ex);
        }
    }

    void jumannppStart(){
 	ProcessBuilder pb = new ProcessBuilder(jumanpath);
        System.out.println("Jumanpp: 開始します");
	pb.redirectErrorStream(true); 
        Process process;
        try {
            process = pb.start();
            //
            is = process.getInputStream();
            pis = new PrintStream(is);
            pis.start();
            // 標準エラーを使う場合
            //es = process.getErrorStream();
            //pes = new PrintStream(es);
            //pes.start();
            OutputStream os = process.getOutputStream();
            ow = new OutputStreamWriter(os);
        } catch (IOException ex) {
            Logger.getLogger(Jumanpp.class.getName()).log(Level.SEVERE, null, ex);
        }
    }
    
    public static void main(String args[]) {
        Jumanpp jumanpp = new Jumanpp();
        jumanpp.jumannppStart();
        // サーバーモードで使わない場合は以下二行をコメントアウトする
        Server server = new Server(jumanpp,32100);
        server.start();
        try {
            jumanpp.pis.join();
            // 標準エラーを使う場合
            //jumanpp.pes.join();
        } catch (InterruptedException ex) {
            Logger.getLogger(Jumanpp.class.getName()).log(Level.SEVERE, null, ex);
        }
    }
    
    class PrintStream extends Thread{
        BufferedReader br;
        boolean stop = false;
        
        PrintStream(InputStream is){
            br = new BufferedReader(new InputStreamReader(is));
        }
        
        void stopThread(){
            stop = true;
        }
        
        @Override
        public void run(){
            System.out.println("PrintStream: スレッドを開始します");
            try {
                while(true){
                    String line = br.readLine();
                    if (line == null || stop) {
                        break;
                    }
                    System.out.println(line);
                }
                br.close();
            } catch (IOException ex) {
                Logger.getLogger(Jumanpp.class.getName()).log(Level.SEVERE, null, ex);
            }
            System.out.println("PrintStream: スレッドを終了します");
        }
    }

}

ソケット通信をする場合は、以下のクラスも使う。

/*
Server.java
*/
import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.io.PrintWriter;
import java.net.ServerSocket;
import java.net.Socket;
import java.util.logging.Level;
import java.util.logging.Logger;

public class Server extends Thread{
    int port;
    Jumanpp jumanpp;
    
    public Server(Jumanpp jumanpp, int port){
        this.jumanpp = jumanpp;
        this.port = port;
    }
    
    @Override
    public void run() {
        try {
            ServerSocket ss = new ServerSocket(port);
            System.out.println("jumanpp サーバースタート ...");
            //サーバー側ソケット作成
            Socket sc = ss.accept();
            String ipaddress = sc.getInetAddress().getHostAddress();
            System.out.println("Connected from: " + ipaddress);
            juman(sc);
        } catch (IOException ex) {
            System.out.println("サーバーソケットエラー");
        }
        System.out.println("サーバーは停止しました");
    }

    void juman(Socket sc){
        BufferedReader br;
        PrintWriter pw;
        try {
            br = new BufferedReader(new InputStreamReader(sc.getInputStream()));
            //pw = new PrintWriter(new BufferedWriter(new OutputStreamWriter(sc.getOutputStream())));
            String data;
            while((data = br.readLine()) != null){
                System.out.println("受信データ:" + data);
                jumanpp.getOutput(data);
                if(data.startsWith("%%CLOSE")){
                    System.out.println("juman: サーバーを終了します");
                    break;
                }
            }
            //pw.println("Data received.");
            //pw.flush();
            //pw.close();
            br.close();
            sc.close();
        } catch (IOException ex) {
            Logger.getLogger(Server.class.getName()).log(Level.SEVERE, null, ex);
        }
    }    
}

prolog二分木における単純疑問文の生成

知識に基づく対話を考えるときに、疑問文の生成は避けて通れない。疑問文は、対話のトリガー、対話を動機づけるものだ。まず、終助詞の「か」を加えて単純疑問文を生成することを試みるのが順当である。

準備として、既存二分木に部分二分木(ないしは語)を加える汎用プログラムを作成しておく。

%% 空のツリーに、Nodeを与えると、それ自身を返す
insert(_,Node,[],Node).
%% 既存ツリーが語の場合
insert(left,node(Value,Left,[]),Word,node(Value,Left,Word)) :- 
        atom(Word),!.
insert(right,node(Value,[],Right),Word,node(Value,Word,Right)) :- 
        atom(Word),!.
%% すでにTreeがある場合
insert(left,Node,node(Value, Left, Right), node(Value, New, Right)) :-
        insert(left,Node,Left,New),!.
insert(right,Node,node(Value, Left, Right), node(Value, Left, New)) :-
        insert(right,Node,Right,New),!.

例えば、「アトムはロボットです」という二分木は、

node(は,アトム,ロボットです)

と書ける。

これを先のinsertを用いて単純疑問文に変えてみよう。

?- ['create.swi'].
true.

?- insert(right,node(か,[],[]),node(は,アトム,ロボットです),Q疑問文).
Q疑問文 = node(は, アトム, node(か, ロボットです, [])).

?- insert(right,node(か,[],[]),node(は,アトム, node(の,博士,ロボットです)),Q疑問文).
Q疑問文 = node(は, アトム, node(の, 博士, node(か, ロボットです, []))).

?- insert(right,node(か,[],[]),node(は,アトム,node([],ロボットです,[])),Q疑問文).
Q疑問文 = node(は, アトム, node([], ロボットです, node(か, [], []))).

最後のものは、明らかに、無駄なツリーを持つものになってしまったが、変更は容易である。

次は、「どれ、どちら、どなた、どこ、だれ、いつ、いくつ、どの、どう、なぜ」という、疑問詞を持った疑問文を生成することを試みる。

部分文章のprolog二分木化

先の記事で出力するようになった部分文章を再び二分木にするようにした。すなわち、次のようである。

?- ['verb.swi'].
true.

?- ws_testverb.
node(を,小田,含む).
true ;
node(が,node(は,node([],含む,4名),放送),終了する).
true ;
node(に,node([],node(ばかりの,終了した,アニメ),機動戦士ガンダム),熱中する).
true ;
node(が,node([],node([],熱中しており,まだ),ガンプラ),発売する).
true ;
node(に,node(から,node([],発売される,前),同作品),登場する).
true ;
node(を,node(の,node([],node([],登場する,ロボット兵器),モビルスーツ(MS)),模型),自作する).
true ;

元の二分木と構造は必ずしも一致せず、動詞が原型になって、自立した文章の体をしていることが異なっている。壊したり作ったり。これで、一つの文章でできることは大体終わった。

文章の中から部分知識を取り出すProlog文

知識の本質は言い換えである。文章の中には、様々な知識が詰まっていて、それらは部分的な言い換え、部分知識である。という前提のもとに自然言語解析を行なっているが、その入り口のところのprologプログラムを記録しておく。

prologの二分木化された文章例は以下のようなものである。wikipediaからの一文である。

jawiki(wiki_543_line_2261_1,
    node(を,
        小田,
        node([],
            [含む, 'V:含む'],
            node(は,
                ['4', [名, 'C:抽象物']],
                node(に,
                    node([],
                        node(ばかりの,
                             node(が,
                                 [放送, 'C:抽象物'],
                                 [[終了, 'C:抽象物'], [した, 'V:する']]
                             ),
                            [アニメ, 'C:抽象物']
                        ),
                        [[[機動, 'C:抽象物'], [戦士, 'C:人']], ガンダム]
                    ),
                    node([],
                        [[[熱中, 'C:抽象物'], [して, 'V:する']], おり],
                         node(の,
                             node([],
                                 node([],
                                     node(に,
                                         node(から,
                                             node([],
                                                 node(が,
                                                     node([],
                                                         まだ,
                                                         ガンプラ
                                                     ),
                                                     [[[発売, 'C:抽象物'], [さ, 'V:する']], れる]
                                                 ),
                                                 前
                                             ),
                                             [同, [作品, 'C:抽象物']]
                                         ),
                                         [[登場, 'C:抽象物'], [する, 'V:する']]
                                     ),
                                     [[ロボット, 'C:人工物-その他'], [兵器, 'C:人工物-その他']]
                                 ),
                                 'モビルスーツ(MS)'
                             ),
                             node(を,
                                 [模型, 'C:人工物-その他'],
                                 node([],
                                     [[[自作, 'C:人工物-その他'], [して, 'V:する']], いた],
                                     [ ]
                                 )
                             )
                         )
                     )
                 )
             )
         )
     )
).

冒頭にもあるように、もと文章は、日本語wikipediaのテキスト化ファイルの543番ファイルの2261パラグラフ目にある文章で、
「小田を含む4名は、放送が終了したばかりのアニメ『機動戦士ガンダム』に熱中しており、まだガンプラが発売される前から同作品に登場するロボット兵器「モビルスーツ (MS)」の模型を自作していた」
をprologの二分木化してものである。

この中にある部分知識を、動詞を原形で終わらせた、一つの整合的な文章と理解して抜き出すプログラムをprologで作成した。次のようになる。

%% -----------------------
%% リストから動詞の原形を取得する 原形までの名詞もつなげる
%% ex. [[[正式, [発表, 'C:抽象物']], [さ, 'V:する']], れた] を 「正式発表する」 に変換
%% 先行するフレーズを取得し、部分知識として獲得する
%% グローバル変数 ws_endverb ws_prewords ws_pushedword を使用する
%% 2019年4月30日〜
%% -----------------------

ws_testverb :- jawiki(_,Node),
        %% 初期化が必要なグローバル変数
        nb_setval(ws_prewords,[]),
        nb_setval(ws_pushedword,'NOTDEFINED'),
        ws_getverb(Node,Out),
        format('EndWD = ~w ~n',[Out])
        .

%% -----------------------
%% ws_memory/2
%% 言葉の記憶数:先行する語をいくつまで記憶しておくか
%% -----------------------
ws_memory(10).

%% -----------------------
%% ws_getverb/2
%% -----------------------
ws_getverb(A,_) :- atomic(A),fail.
ws_getverb(node(_,Left,_),Out) :-
        nb_setval(ws_endverb,''),
        ws_getoriginal(Left,Out),
        nb_getval(ws_prewords,S),
        nb_setval(ws_prewords,[]),
        format('PreWD = ~w ',[S]).
ws_getverb(node(_,Left,_),Out) :-
        ws_memory(M),
        ws_pushglobal(ws_prewords,Left,M),
        ws_getverb(Left,Out).
        %format('DEBUG Left2 = ~w ~n',[Left]).
ws_getverb(node(A,_,Right),Out) :-
        ws_memory(M),
        ws_pushglobal(ws_prewords,A,M), %% 左から右に変わるときにNode値を確保する
        nb_setval(ws_endverb,''),
        ws_getoriginal(Right,Out),
        nb_getval(ws_prewords,S),
        nb_setval(ws_prewords,[]),
        format('PreWD = ~w ',[S]).
ws_getverb(node(_,_,Right),Out) :-
        ws_memory(M),
        %% 右に [同, [作品, 'C:抽象物']] と言うのがあるとここで処理
        %% 左も同じ機能
        ws_pushglobal(ws_prewords,Right,M),
        ws_getverb(Right,Out).

%% -----------------------
%% ws_pushglobal/3
%% グローバル変数に値を左から詰める
%% リストに限定する
%% -----------------------
ws_pushglobal(VName,Term,Size) :-
        %format('DEBUG Push Term = ~w ~n',[Term]),
        nb_getval(VName,S0),
        %format('DEBUG Push S0 = ~w Term = ~w ~n',[S0,Term]),
        (atom(Term),
        not(last(S0,Term)) %% 既存最終項が重なっていないかだけチェック
         ->  (length(S0,Size1),
            Size1 >= Size
            -> [_|T] =S0,
                append(T,[Term],S1)
            ;   append(S0,[Term],S1)
            )
        ;   ([_|_] = Term, % Termがリストならば
            %% カテゴリ等を除いたリストを得る
            ws_getlist(Term,L2),
            %% そのリストをつなげてatomにする
            %%format('DEBUG Pushglobal Term = ~w L2 = ~w ~n',[Term,L2]),
            %%format('DEBUG Pushglobal Term = ~w S0 = ~w ~n',[Term,S0]),
            flatten(L2,L3),
            %% すでにグローバル変数に、このリストの統合した後が、個別に入っている可能性がある
            %% もし入っていたら、最後の方から、それに一致するものを全て削除する
            %format('DEBUG Pushglobal  S0 = ~w L3 = ~w ~n',[S0,L3]),
            ws_deletelast(S0,L3,S2),
            %%S2 = S0,
            concat_atom(L3,H),
            %format('DEBUG Pushglobal Term = ~w S0 = ~w ~n',[Term,S0]),
            not(last(S2,H))
            ->  (length(S2,Size1),
                Size1 >= Size
                ->  [_|T2] =S2,
                    append(T2,[H],S1)
                ;   append(S2,[H],S1)
                )
            ;S1 = S0
            )
        ),
        nb_setval(VName,S1).

%% -----------------------
%% ws_getlist/2 (sentence.swiなどにすでに使われている、重複を避けること)
%% -----------------------
%% getlistは、リストが[語, カテゴリ]から構成されているのから、語だけのリストを作る
%% 一つのフレーズに複数の語があると
%% [[[語, カテゴリ],語],[語, カテゴリ]] などのように繋がってリスト化される
%% knpがカテゴリを出力しない場合は、語が単独になることもある
%% HeadとTailをから、それぞれの語を取り出して、結合したのを出力
%% -----------------------
ws_getlist([H|[T]],[X1, X2]) :- ws_getlist(H,X1),
        ws_getlist(T,X2),!.
%% 構造的に、Tailには、単位リストしか入っていない
ws_getlist([H|[T]],[H,H1]) :- atom(H),[H1|_] = T,!.
%% tailがリストでない場合は、atomであるHeadのチェック
ws_getlist([H|[_]],[H]) :- atom(H).
%% tailが構造化されたリストの場合にはここで処理する
ws_getlist([H|[T]],[Z,T]) :- atom(T),
        ws_getlist(H,Z).

%% -----------------------
%% ws_popglobal/2
%% グローバル変数の最後の要素を取得する
%% グローバル変数は、リストでなければならない
%% -----------------------
ws_popglobal(VName,Term) :-
        nb_getval(VName,S0),
        %format('DEBUG POPGLOBAL Term = ~w S0 = ~w ~n',[Term,S0]),
        (S0 = []
        -> Term = [] %% Term = '' の方がいいと思う
        ;   (last(S0,Term)
            ->  delete(S0,Term,S1),
                nb_setval(VName,S1)
            ; true % これを入れないと全体がfailになってしまう
            )
        ).

%% -----------------------
%% ws_popglobalfromlist/2
%% リストからポップする → 使っていない
%% -----------------------
ws_popglobalfromlist(VName,List) :-
        nb_getval(VName,L),
        ws_deletelast(L,List,Out),
        nb_setval(VName,Out).

%% -----------------------
%% ws_deletelast/3 
%% ws_pushglobalの中で使っている
%% Lの最後から L1と一致するものを全て削除する
%% L=[a,b,c,d,e,f,g] L1=[e,f,g] → Out=[a,b,c,d]
%% もし、一致しないものがあったら、元のリストをそのまま返す
%% -----------------------
ws_deletelast([],_,[]). %% 元リストが空の場合は、空を返す これを入れないと空がエラーになる
ws_deletelast(Out,[],Out).
ws_deletelast(L,L1,Out) :-
        reverse(L,L0),
        [H0|T0] = L0,
        reverse(L1,L2),
        [H2|T2] = L2,
        (H2 == H0
        ->  reverse(T0,R0),
            reverse(T2,R2),
            ws_deletelast(R0,R2,Out)
        ; Out = L  % 等しくないものがあった場合は、元のを変更せずに返す
        ).

%% -----------------------
%% ws_getoriginal/2
%% -----------------------
ws_getoriginal([H0|T],Out2) :-
        %% 動詞の場合、H0:表現形, H1:原形
        %% atomでなければならない
        atom(H0),
        [H1|_] = T,
        atom(H1),
        atom_codes(H1,S1),
        %% 'V:' のコードリストは [86, 58]
        %% 一致する場合、動詞の原形である
        (ws_listncomp([86,58],2,S1)
    ->      split_string(H1,":","", [_|[T2]]),
            atom_string(Out1,T2),
            nb_getval(ws_endverb,Out0),
            %%atom_concat(Out0,Out1,Out2),
            format(atom(Out2),'~w~w/~w',[Out0,Out1,H0]),
            %% 動詞に組み込まれた先行語をpopする
            nb_getval(ws_pushedword,PW),
            %format('DEBUG ws_prewords PW = ~w H0 = ~w ~n',[PW,H0]),
            ws_popglobal(ws_prewords,PW)
    ;
            %format('DEBUG H0 = ~w H1 = ~w ~n',[H0,H1]),
            Out1 = H0,
            nb_getval(ws_endverb,Out0),
            atom_concat(Out0,Out1,Out2),
            ws_memory(M),
            ws_pushglobal(ws_prewords,H0,M),
            %% ここでpushしたものを記憶しておき、動詞に入った場合は上でpopする
            nb_setval(ws_pushedword,H0),
            %format('DEBUG ws_prewords PUSH H0 = ~w ~n',[H0]),
            nb_setval(ws_endverb,Out2),!,fail %% !とfailは、ともに不可欠
        ).

ws_getoriginal([H|_],_) :- atom(H),
        %format('DEBUG H_2 = ~w ~n',[H]),
        nb_getval(ws_endverb,Out0),
        Out1 = H,
        atom_concat(Out0,Out1,Out2),
        nb_setval(ws_endverb,Out2),!,fail. %% !,failは不可欠

ws_getoriginal(A,_) :- atom(A),
        %% C:やC:抜きで入っている単体の語をひろう
        %format('DEBUG A = ~w ~n',[A]),
        ws_memory(M),
        ws_pushglobal(ws_prewords,A,M),fail.

% 左がリストになっている場合
ws_getoriginal([H|_],Out) :-
        ws_getoriginal(H,Out).
% 右がリストになっている場合
ws_getoriginal([_|[T]],Out) :-
        ws_getoriginal(T,Out).

%% -----------------------
%% ws_listncomp/3
%% -----------------------
%% リストのN番目までリストを比較する
ws_listncomp(_,0,_).
ws_listncomp([H0|T0],N,[H1|T1]) :-
        N > 0,
        N_1 is N-1,
        H0 == H1,
        ws_listncomp(T0,N_1,T1),!.        

このプログラムの末尾に、先のwikipediaのprolog二分木をくっつけるか、別ファイルにしてそれぞれを読み込む必要がある。プログラムは、何日もかけて改訂しているもので、説明する気が起きないくらい複雑なものだ。

実行例は次のようになる。

?- ['verb.swi'].
true.
?- ws_testverb.
PreWD = [小田,を] EndWD = 含む/含む 
true ;
PreWD = [含む,4名,は,放送,が] EndWD = 終了する/した 
true ;
PreWD = [終了した,ばかりの,アニメ,機動戦士ガンダム,に] EndWD = 熱中する/して 
true ;
PreWD = [熱中しており,まだ,ガンプラ,が] EndWD = 発売する/さ 
true ;
PreWD = [発売される,前,から,同作品,に] EndWD = 登場する/する 
true ;
PreWD = [登場する,ロボット兵器,モビルスーツ(MS),の,模型,を] EndWD = 自作する/して 
true ;
false.
?- ^D

先のプログラムを verv.swiとして、swi-prologに読み込んで、実行している。

PreWDは、先行語(ノード値と左右葉の語)、動詞に先行するフレーズであり、プログラム上、10語までのものを取り出す設定にしている(ws_memory(10).で定義されている)。その後に、動詞の原形という(EndWD)終了後で、部分文章は閉じるようになっている。先行語はどこまでが構成要素になるかは、柔軟に考えれば良い。基本、最低、前の二つの語を採用すればいいだろう。

最初に、「小田を含む」という自立したフレーズ、部分文章、部分知識を取り出す。次が「終了したばかりのアニメ機動戦士ガンダムに熱中する」、「ガンプラが発売する」は文章的には少し変になっている、そして「同作品に登場する」、最後は「ロボット兵器、モビルスーツ(MS)の模型を自作する」となる。

一つの文章からはこのような部分文章を引き出せるが、wikipediaとtwitterの膨大なデータを用いて、これを会話の中に適合的なフレーズに鍛錬する必要がある。

次に、文章構成の基本的な手続きを再び確認したい。

自然言語と二分木

物事の最中ではあるが、ここで、改めて自然言語を二分木で考えることの意味を確認しておく。

数値的二分木の意義は、よく言われるように、二分木の中に大小が秩序良く収まることであろう。例えば、私が最も参考にしたサイトの一つは次のものである。

Implementing a Binary Tree in Java

二分木を構成していくプロセス、要素を削除する、あるいは検索、そして大小の流れの表示など、一貫して簡便に良く表現できる。

自然言語の二分木が似ているのは、数値の場合の大小の流れが、自然言語の場合、文章が一つの流れになっていることである。例えば、先の記事で使った簡単な文章、

「ロボットとともに人工知能も注目された」

この文章は、右から左に言葉が流れている。数値が、小さいものから大きなものの順に流れている、などの場合と同様である。

形態素解析の場合は、この自然言語を、「名詞」「動詞」「助詞」「形容詞」「副詞」などの多くのカテゴリで、単語の品詞を確定し、解析する。しかし、こうした単語の特徴を、二分木の場合「ノード値」「左葉」「右葉」三種類、あるいは空文字も入れて、せいぜい四種類の分類で、文章を解析しようというものである。

この二分木的形態素解析は、通常の自然言語の形態素解析と必ずしも対応させる必要はない。もちろん、厳密に対応させてもいいのだが、そうする必要はない。

ある言葉が、左の葉に来ることも右の葉に来ることもある。ノード値だけは、体言や用言を繋げる役割を果たす言葉に限定している。ただ、それも厳密なものではない。前の記事でも書いたように「ともに」という副詞は葉の言葉になることもあれば、「とともに」のようにノード値に組み込まれることもある。

なぜ、このような曖昧さが許されるのか。それは、形態素解析が、十分少ない文章のサンプルでも、きちんと合理的な判断を下すことが求められるのに対して、二分木的自然言語解析では、はなから、大量のデータを扱うことを前提にするからである。大量のデータの中には、いろいろありうる。いろいろあっても、いろいろあるからこそ、そこに新たな規則が、確率的なものかもしれないし、もっと神経回路のような曖昧さのあるルールかもしれないが、何れにしても、何らかの実際的ルールが見えてくればいいと考えるのである。

自然言語解析、我々は、あまりに古典的な解析方法に縛られすぎたのだ。コンピュータのCPUの処理能力がとてつもなく発達したこの時代の自然言語解析は、もっと違ったものであるべきだし、そうしたコンピュータの進化に適合的な解析手法が二分木なのである。

prolog二分木における副詞の扱い

副詞の扱いに問題があることが判明した。例えば、「ロボットとともに人工知能も注目された」という二分木がこんな感じになってしまう。

testdoc(testline_0_0,
    node(と,
        [[ロボット, 'C:人工物-その他'], ともに],
        node(も,
            [[人工, 'C:抽象物'], [知能, 'C:抽象物']],
            node([],
                [[[注目, 'C:抽象物'], [さ, 'V:する']], れた],
                [ ]
            )
        )
    )
).

これがおかしいのは、「ロボットともに」が左の葉で、ノード値が「と」になっていることだ。もともと、「ロボットとともに」が一つの句の中にあったのに、「と」が助詞で、ノード値に入れられたのちに、副詞の「ともに」が現れ、副詞は一般に左右の葉の値となるものなので、ロボットに継ぎ足されたのである。

一般の副詞の場合、例えば次のようになる。

testdoc(testline_0_0,
    node(の,
        node(には,
            [広場, 'C:場所-施設'],
            かなり
        ),
        node(が,
            [人, 'C:人'],
            node([],
                [[集まって, 'V:集まる'], いた],
                [ ]
            )
        )
    )
).

この場合、「かなり」が副詞で、右の葉に入っていて、不自然さはない。

そこで、すでに、助詞がノード値として入っているときに副詞があらわれたら、それはノード値につなげるようにした。もともと、ノード値は、基本的に、体言や用言のリーフ値をつなげるものなので、品詞で厳密に分けているのではないから、それでいい。

そのようにフォーマットを変えると、次のようになる。

testdoc(testline_0_0,
    node(とともに,
        [ロボット, 'C:人工物-その他'],
        node(も,
            [[人工, 'C:抽象物'], [知能, 'C:抽象物']],
            node([],
                [[[注目, 'C:抽象物'], [さ, 'V:する']], れた],
                [ ]
            )
        )
    )
).

大きな問題はない。これでいこう。ただ、もう少し改定点がまとまってから、wikipediaやtwitterの作り直しをやろう。