1月30日の業務報告

こんばんは、B3の功刀です。

本日の質問と解答です.
=======================
<知識情報演習Ⅲ>
Q1. ストップワードを判断するための正規表現を書いたが上手く動かない。
A1.正規表現の中でストップワードを|で区切ることで判断していたが、|が一本余分に含まれていたためストップワード以外の語句もマッチしたと判断されていました。

Q2.ストップワードを判断するための正規表現を書いたが、単語の中に部分文字列としてストップワードが登場したときにその単語をストップワードとみなしてしまう。
A2.単語の前に現れるスペースと単語の終わりを考慮した正規表現に書き換えることによって単語の中にストップワードが出現する場合にも対処できることを説明しました。

Q3.接辞処理をするために正規表現を書いたが上手く動作しない。
A3.if分の条件式にeqを用いていたのが上手く動作しない原因でした。=~を使えば良いことを確認しました。
回答:Q1-3:功刀
=======================

正規表現は記号も多く間違いに気づきづらいです。
web上には正規表現のテストや確認を行ってくれるサービスが多く公開されているので、正規表現の確認をしたい方はぜひ探してみてください。

(文責:功刀)

1月29日の業務報告

こんばんは,B3の野沢です.

本日は卒業生講演がありました.
社会で活躍されている先輩のお話を聞くことはよいことですね.

本日の質問と解答です.
=======================
<知識情報演習Ⅲ>
Q1. キーはストップワードで値は1のハッシュを用意し,ファイルから読みこんだ単語がもしハッシュのキーにあれば出力しない,なければ出力するコードを書いた.実行したらストップワードを含めて全て出力されてしまう,
A1. ifの条件式が”==”ではなく”=”だったので,すべて出力されていました.

回答:Q1:野沢
=======================

変数名を入力し間違えたり,現在編集していないファイルを実行していたり,簡単なミスほど気がつかないものです.
自分でどうしてもわからないときは,周りの人に聞いてみましょう.
(文責:野沢)

1月28日の業務報告

こんにちは。
卒業が迫るB4の古澤です。

本日の質問はありませんでした。

今日はKLCで主専攻相談会がありました。
主専攻の選択に際し、先輩達にアドバイスを聞けるイベントです。
KLCではこういったイベントを定期的に開催していますので、積極的に活用してみてください。

(文責:古澤)

1月27日の業務報告

こんばんは,B3の野沢です.

本日の質問と解答です.
=======================
<知識情報演習Ⅲ>
Q1. dfの計算ができたが、tfの値を計算できない。
A1. tfが正しく計算できない理由を一緒に考えました。その結果、重複した要素の足し算と複数の文書を跨いでtf値を算出していたことが判明したので、テキストを見て足し方を確認した上で原因を1つ解決するよう指摘しました.

回答:Q1:榎本
=======================

明日の15時15分からKLCで主専攻相談会があります.
専攻に迷っている方や希望している主専攻がどんなことをするのか気になっている方は,ぜひお越しください!
(文責:野沢)

1月26日の業務報告

こんばんは、B3の功刀です。

本日の質問と解答です。
=======================
<知識情報演習Ⅲ>
Q1. クエリが書かれたファイルと各文書の出現単語と重みが書かれたファイルの二つを読み込んで、最後に各文書のスコアを計算するプログラムがうまくつくれない。エラーが出ているが原因がわからない。
A1. @ARGVが何を表しているのか、と<>の使い方の違いなどについて説明したうえで、二つのものをそれぞれ別に読み込むにはどうすればよいか考えました。

Q2. 文字列の末尾を取り出したくてpopメソッドを使っていたが、エラーが出て先に進めない。
A2. pop関数は配列を扱うための関数であることを確認し、文字列の末尾を取り出すにはどのような方法があるのか、正規表現などの文字列処理について確認をしました。

Q3. dfの計算ができたが、そのあとどのような流れでidfとw(t,d)の値を求めていけば良いかわからない
A3. 単語の重み付けにおいて各値を計算するのに必要となるハッシュを用意するための方法について一緒に考えた上で、作成したハッシュを用いてどのように計算をすればいいかを考えるよう促しました。

<統計>
Q4. 統計の問題が解けなくて困っている(独立性の検定の問題ができない)
A4. 与えられた数値(表)から理論値の数値を求めて表にまとめる作業をしてからカイ二乗検定を行うまでの流れを確認するように説明しました。

回答:Q1:岩井 Q2-4:功刀
=======================

tf-idfを求めるプログラムはテキストファイルの読み込みやハッシュの操作がスムーズに進まないと、なかなか思うように作業が進みません。どこでどういったデータを処理しているのか、自分の書いたコードの動きがわからなくなってきたときはこまめに出力をして動作を確認するようにしましょう。
ハッシュの%や配列の@などの記号に関わる間違いでプログラムが上手く動かないという人も多い様です。Rubyに慣れているので、なかなか大変だとは思いますが、原因不明のエラーで困ったときは細かく確認してみてください。

(文責:功刀)