2008年1月7日月曜日

1日中.txtと遊んでました

別に.csvでも.datでも.hogeでもなんでもいいですがね!
というわけで昨日の予定通り、
ChaSenで形態素解析して解析データを作成する
Perlスクリプトを書く。
# まぁMeCabも対応させてるんですが(笑)
数千以上ものデータを扱うのは、
久々ですね。
おかげでたまにあるイリーガルなものを
処理していたらそれだけで1日が終わってしまった。
しかしEncodeモジュールはいいのか悪いのかなんとも言えませんねぇ。
しっかり理解せんといろいろと問題がありそうだ。


そして明日は
カテゴリ単位で形態素解析されたデータの集積。
カテゴリ数がおよそ150。
ExcelのワークシートのMaxはメモリに依存しているそうで、
150シートくらいならば作れそうだけどどうだろう。
かといって150のエクセルファイルにするのもどうかと思うし…。
とりあえずその辺どうするかが明日の悩みになりそうな予感。

1 件のコメント:

  1. 年末年始の追い込みではExcelを扱うことが
    多く、ほとんどテキストデータを扱っているの
    ですが、言語演習系の科目を担当すると、文章が
    複数の文のことで、2次元の文字データである
    という概念を如何に理解に導くかでアレコレ悩む
    のですが、Excelは可視性が高いのでうまく活用
    できないかなあ~と。

    返信削除