助詞推定AIの改訂（２）

学習データ作成時に、日本語wikipediaからのデータの体現部分はword2vecでウェイト化する。それを、これまで、mariadbに載せたウェイトにアクセスする形にしていたが、そうすると、アクセスのための時間がかかって、マルチスレッドでやっている意味がないほどに、時間がかかった。何しろ、6000万を超える４対語である。プログラムを45スレッド、CPUは24スレッドで処理したのだが、数スレッドしか実際に稼働しなかった。

そこで、元々のword2vecのバイナリファイルから、ウェイトを冒頭に全て読み込んで、データベースへのアクセスを不要にしたら、一挙に処理速度があがった。数十倍早くなったと思う。当初は、十数時間かかりそうだったのに。

月	火	水	木	金	土	日
« 9月
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30