これまでの話では、「名詞」+「助詞」+「名詞/動詞」の3語のパターンで、深層学習のデータを作ると書いたが、実際できたデータを見ると、前後の語から間の助詞を判断するのは、自分で見ても難しい。そこで、もう一つ助詞をとって、
「名詞」+「助詞」+「名詞/動詞」+「助詞」
のパターンで、はじめの助詞を推定するという構造に変えた。これで日本語wikipediaデータをパースすると、前よりもデータ数は減ったが、それでも、17,588,062対を得ることができた。これで、深層学習のデータを作成しよう。
データ(一部)は次のような感じである。
体:は:羽衣:の もの:が:付い:て 輸送:において:採算:を 千年:から:エネルギー:を 延長:を:図っ:て 路線:を:中心:に 7日間:しか:目:を ジラーチ:は:ロシア語:で ハイダル・アリー:は:戦争:の その後:も:戦争:は イギリス:は:マンガロール:に 1784年:に:第二次マイソール戦争:は マンガロール:で:休戦:と これ:は:インドの歴史:で インド:の:民族:にとって イギリス:に:腰:を し:て:休戦:を ウォーレン・ヘースティングス:は:これ:を 国王:と:議会:に 市内:の:殆ど:の 地域:で:最寄駅:まで 線:を:皮切り:に 通常:の:プレイ:で 路線:の:開設:に 210:は:バス路線:の 空白域:を:ピンポイント:で 2004年:から:2008年:にかけて 1780年:は:武装中立同盟:に ため:に:増発:を キャンペーン:の:一環:として ネーデルラント連邦共和国:に対し:先手:を 深夜バス:の:運行:も 武装中立同盟:は:ヨーロッパ:の 6月19日:から:7月17日:まで 間:に:ニンテンドーWi-Fiコネクション:で 結果:は:ヨーロッパ:で 赤字:が:続い:て 7月1日:から:7月31日:まで イギリス:は:ネーデルラント:が 扇動:と:オランダ政府:の イギリス:の:攻撃:を ホウエン地方:の:トクサネシティ:の フレーズ:を:口:に これら:の:こと:から セレビィ:と:ウバメ:の 独立戦争:の:最初:の これ:を:基:に