twitter データを最初から作り直す

この間、twitterやwikipediaのウェイトデータをmariadbのデータベースにしたり、言葉の距離の近いものをリストする場合のデータを事前作成したりしたが、データ量を減らすために、4文字以上のアルファベットのある言葉を排除してきたり、全てがアルファベットの言葉を排除したりした。この制約が、いろいろ面倒なことになってきた。ので、全て作り直す。10時間くらい浪費するような気がする。

Twitterデータは、その後集めたデータも含めて、最初のコーパスから作り直す。結局、利用する総ツイート数は、
25,188,425ツイート
になった。まだ1億個までは程遠い。ので、毎日せっせと収集スクリプトを動かして集めている。24時間動かし続けて、100万個程度集まるので、1ヶ月かけても1000万しか集まらない。スレッドを複数にして集めようとしたが、結局、twitterがサンプリングしているのは同じのようで、同じものを複数買い集めていることにしかならないので、一個のプログラムでひたすら集めている。

word2vecのdistanceで、入っている任意の言葉のすべてについて、相互の距離を計算するので、計算量は膨大であり、自宅の12コア、24スレッド動くmacで20スレッド程度を並列で動かしてまず、テキストデータを作成し、それを次にmariadbに登録する。