二分木には、juman++による形態素解析の結果が組み込まれている。主語を捉える上で、可能性として色々ある場合、扱う順位、ウェイトのようなものが欲しい。たとえば、「アトムと言われているものはなんですか」というのを、二分木にすると、
%% line = アトムと言われているものはなんですか %% phrases: [ 0 1 2 r3 ] testdoc(testline_0_0, node(ですか, node(は, node([], node(と, [アトム, 'S:普/C:自然物/D:科学・技術'], [[[言わ, 'V:言う'], れて], いる] ), [もの, 'S:形'] ), [なん, 'S:数/C:数量'] ), [ ] ) ).
となる。図で描くと、
となる。「は」という格助詞の前に、名詞は三つある。「なん」が数詞になっているのが少しおかしい(juman++の仕様)だが、他に、「アトム」と「もの」もある。「なんですか」というのも、「ものはなんですか」も日本語としては単独で成立する。しかし、ここでは主語は「アトム」であるべきだ。
となると、名詞の主語になる優先順位というのが必要になるだろう。名詞の種類は、juman++では、次のようになっている(http://www.unixuser.org/~euske/doc/postag/)。
普通名詞 (例)「つくね焼」「鞭打ち症」「パイ中間子」サ変名詞以外のもの。 副詞的名詞 (例)「ところ」「ため」「ぐらい」「~したところ」「~するため」 形式名詞 (例)「の」「こと」「もの」「つもり」「わけ」 固有名詞 (例)「エスキモー」「広辞苑」「平成」以下の 3カテゴリにあてはまらない固有名詞。 組織名 (例)「NATO」「そごう」「運輸省」 地名 (例)「東京」 人名 (例)「田中」 サ変名詞 (例)「説明」「あんよ」「埋め合わせ」「発想」「~する」の形をとれるもの。 数詞 (例)「ゼロ」「億」 数値。 時相名詞 (例)「あした」「ほどんど」「それぞれ」
順位をつけると、(1)人名(2)組織名(3)地名(4)固有名詞(5)普通名詞(6)サ変名詞(7)形式名詞(8)数詞(9)時相名詞(10)副詞的名詞、となるのではないか。この優先順位で、文章の主語をとらえることにしよう。