2月3日の業務報告

こんばんは、B3の野沢です.

本日の質問と解答です.
=======================
<知識情報演習Ⅲ>
Q1. extract.plで必要な文字だけを取得したいのだが空白になってしまいうまくいかない
A1. 例の、「の間の文字を取得する」という正規表現の書き方のみを使って処理を行なおうとしていたため、該当する文字がなかったことが原因でした。While文の中では文章を1行ずつ読み込むことを意識すればよいと伝えました。

Q2. tfの表示結果がD001~という順ではなく単語のアルファベット順になってしまう
A.2 tfの値を入れているハッシュの構造が単語->id->tfの値の順になっており、この順でforeach文を使うと、まず単語でソートされ、そのあとidの順に処理されていくということを伝え、表示を逆にすることを伝えました。

Q3. tfで総文書数を表示しないようにしているのに総文書数が出てくる
A3, tfの処理を行うために読み込ませる文書群の中で、文書が終わると空行を入れていました。その空行を読み込んで頻度を数えていったため、総文書数と同じ数が表示されていたことを確認しました。

Q4. idfを計算する場所がわからない
A4. dfの計算まで行なっていたので、それとはまた別にforeach文を作り、その中でidfの計算を行なえばいいと伝えました。

回答:Q1-4: 品木
=======================

知識情報演習Ⅲのレポート締切は今週末なので,締切直前にとりかからずに,早めに片付けてしまいましょう.
(文責:野沢)