名詞の主語としての重要性ウェイト:prolog二分木

二分木には、juman++による形態素解析の結果が組み込まれている。主語を捉える上で、可能性として色々ある場合、扱う順位、ウェイトのようなものが欲しい。たとえば、「アトムと言われているものはなんですか」というのを、二分木にすると、

%% line = アトムと言われているものはなんですか
%% phrases: [ 0 1 2 r3 ] 
testdoc(testline_0_0,
    node(ですか,
        node(は,
            node([],
                node(と,
                    [アトム, 'S:普/C:自然物/D:科学・技術'],
                    [[[言わ, 'V:言う'], れて], いる]
                ),
                [もの, 'S:形']
            ),
            [なん, 'S:数/C:数量']
        ),
        [ ]
    )
).

となる。図で描くと、

となる。「は」という格助詞の前に、名詞は三つある。「なん」が数詞になっているのが少しおかしい(juman++の仕様)だが、他に、「アトム」と「もの」もある。「なんですか」というのも、「ものはなんですか」も日本語としては単独で成立する。しかし、ここでは主語は「アトム」であるべきだ。

となると、名詞の主語になる優先順位というのが必要になるだろう。名詞の種類は、juman++では、次のようになっている(http://www.unixuser.org/~euske/doc/postag/)。

普通名詞 (例)「つくね焼」「鞭打ち症」「パイ中間子」サ変名詞以外のもの。
副詞的名詞 (例)「ところ」「ため」「ぐらい」「~したところ」「~するため」
形式名詞 (例)「の」「こと」「もの」「つもり」「わけ」	
固有名詞 (例)「エスキモー」「広辞苑」「平成」以下の 3カテゴリにあてはまらない固有名詞。
組織名 (例)「NATO」「そごう」「運輸省」	
地名 (例)「東京」
人名 (例)「田中」
サ変名詞 (例)「説明」「あんよ」「埋め合わせ」「発想」「~する」の形をとれるもの。
数詞 (例)「ゼロ」「億」 数値。
時相名詞 (例)「あした」「ほどんど」「それぞれ」

順位をつけると、(1)人名(2)組織名(3)地名(4)固有名詞(5)普通名詞(6)サ変名詞(7)形式名詞(8)数詞(9)時相名詞(10)副詞的名詞、となるのではないか。この優先順位で、文章の主語をとらえることにしよう。