研究室に置いてあった『個人投資家のための「小型株」で賢く儲ける方法』をぱらぱらとめくっていたら
仕手株と見られる銘柄の掲示板を見ると、その筋や会員からと見られる記載が目立つ。
とか
仕手株であるかどうかは、インターネットで情報を見ていればわかる。ある銘柄が上がって来たときに、それが仕手筋の仕掛けであれば、「教え魔」ともいうべき仕手筋の会員がインターネットの掲示板などに記載をするからである。
また、ある仕手株に「提灯買い(追従の買い)」が思うようにつかないときには、仕手筋の人間が、さりげなく「仕手本命!」というような記載をハンドルネームを変えながら掲示板に流すのである。
などとあったので、これを検証してみようと思いIDStalker.javaを作ってみた。処理をしてみて、一部のタイトルリストに不整合があることが分かった。投稿が文字化けしてタグの一部がかけてしまい、うまく配列に区切れていないものがあったのだ。たとえば
2550,?????br></a></td><td width="28%" valign=top><small>hajimetejyanaiyo,2001/04/10T19:14
タイトル部分が?????br>~
と文字化けてしまっている。そのせいで配列の数が1個少なくなり、ArrayIndexOutOfBoundsExceptionが出たり、IDを使ってファイル名を決めるときに不具合が出たりする。まずこれを修復した。
CSVファイルで取得することを考慮して、文中の半角カンマは全角カンマに変えた上でファイルに書き込んでいった。
CSVの仕様的には、こういうときは引用符で囲んであげれば、わざわざ半角カンマをほかの記号に変える必要はない。
IDStalkerを走らせたのはいいのだが、生成されたファイルは70万にもなり、エクスプローラでそのファイルが収められているフォルダを開くと固まってしまう。中見れない。しょぼん。
今後の予定は
- タイトルリストと株データを読み込んでグラフ化するクラスを作る。前に食客の人から教えてもらったJGraph を使うと思うが、まったく未知数。
- 各タイトルリストを分析して、投稿数に大きな変化があったところを抽出する。そのとき社会で何が起きていたのかを、新聞記事検索などで調べる。
- 書き込み数の多い銘柄について、新聞記事検索などで露出度を調べる。
- 仕手株 とみられる銘柄のトピで、仕手筋からの書き込みがどれくらい目立っているかを調べる。
- (おまけ) タイトルリスト修正中に気づいたのだが、書き込み数の多いトピはトピ違いの書き込みも多い。たとえばソフトバンクなど、ひたすら小泉内閣の悪口を書いている人がいる。ここらへん詳しく。