別に.csvでも.datでも.hogeでもなんでもいいですがね!
というわけで昨日の予定通り、
ChaSenで形態素解析して解析データを作成する
Perlスクリプトを書く。
# まぁMeCabも対応させてるんですが(笑)
数千以上ものデータを扱うのは、
久々ですね。
おかげでたまにあるイリーガルなものを
処理していたらそれだけで1日が終わってしまった。
しかしEncodeモジュールはいいのか悪いのかなんとも言えませんねぇ。
しっかり理解せんといろいろと問題がありそうだ。
そして明日は
カテゴリ単位で形態素解析されたデータの集積。
カテゴリ数がおよそ150。
ExcelのワークシートのMaxはメモリに依存しているそうで、
150シートくらいならば作れそうだけどどうだろう。
かといって150のエクセルファイルにするのもどうかと思うし…。
とりあえずその辺どうするかが明日の悩みになりそうな予感。
年末年始の追い込みではExcelを扱うことが
返信削除多く、ほとんどテキストデータを扱っているの
ですが、言語演習系の科目を担当すると、文章が
複数の文のことで、2次元の文字データである
という概念を如何に理解に導くかでアレコレ悩む
のですが、Excelは可視性が高いのでうまく活用
できないかなあ~と。