3月2日の業務報告

こんばんは,M1の安永です.
本日の質問と回答です.
=====================================================
【知識情報演習III】
Q1.(課題に関して,)retrieval.prlで文書ごとのスコアを求められない。
A1.文書番号をキー、スコアを値とするハッシュを作って,文書番号ごとのスコアを計算することを提案しました。
Q2.昨日間違えてTFとIDFは同一のファイルで作ると言ってしまったが、実は別々のファイルでつくるようにと言われたので、別々にする場合はどう記述すればよいか聞きたい。
A2.左記の状態ではどうしてだめか説明しながら一緒に作りました。注意点は次の二つです
�出力結果を読み込んでも、whileの外では読み込んだ結果は使えないので、別の変数やハッシュなどに入れておく必要がある
�一行目に出力される文書数をそのまま読み込んでIDFのプログラムを実行すると、DFをカウントするときやforeachを使って出力するときにエラーが起きる
回答者 Q1森川 Q2西野
=====================================================
(文責 安永)

3月1日の業務報告

お待たせいたしました。三年次の西野です。
今日は春が近付いているのを感じる暖かい日でした。
本日の質問は以下の一つだけでした。
============================
Q.知識情報演習�
IDFを求めるのに使うDFは、どうプログラムをかけばよいですか
A.
TFを求めるときにも使った、検索語を数えるプログラムを使ってはどうか、と回答しました。
検索語を数えるプログラムとは、ハッシュを使って、
初めて出てくる検索語の時は、キーを検索語、値を1として、
もう出てきた検索語の時は、自己代入を使って値を1ずつたしていく、
というものです。
============================
知識情報演習は授業の回数が少ないわりに、いろいろなプログラムを書かせるので、
プログラミング演習のときに基本ができているかが問われます。
配列やハッシュの概念、そのほか今書いているプログラムが何をしているものなのか、
わかるように復習をきちんとやりましょう。
いよいよテストですね。季節の変わり目で体調を崩しやすい時期でもあります。
本学ではインフルエンザが流行っているとの噂ですが…
徹夜などして体を壊さないようにしましょう。
(文責:西野)

3月4日の業務報告

こんばんは、2年鈴木です。
今日の質問です。
ーーーーーーーーーーーーーーーーー
Q1. <知識情報演習III>
文書番号が振り分けられたいくつかの文書データの単語を区切り、文書番号をつけて「文書番号 単語」というかたちで出力されたデータから、文書総数を求める方法がわからない
A1. 読み込んだ行数を数えていたので、文書総数とは読み込んだ行数の事ではなく、もともとの文書データの数である、と授業で使ったスライドを見せながら説明し、それは、文書番号を使って数えられますよね?と提案しました。
しかし、どうやればよいのかわからないといわれたので、文書番号の種類が文書総数になっている、つまり文書番号が違うものになったとき、その回数を数えると文書総数が出てくるかもしれません、と教えました。
Q2. <知識情報演習III>
「文書番号 単語」で、ある単語がある文書にでてきた回数(TF)という形のデータを読み込んで、IDF(逆文書頻度)の求める方法がわからない
A2. まずIDFとは、ある単語が出てくる文書がどれだけ少ないかを示すものであると教えました。
そして、求める式(文書総数をある単語が出てくる文書の数で割った物の自然対数をとり、1を足したもの)から、まず単語が出現する文書数を単語ごとに求める必要があります、と教えました。
Q3. <情報社会と法制度>
テスト対策の仕方を教えてほしい
A3. 授業で配られたレジュメ(資料)を読み返せばよいのではないか、ということと、去年は行政司法書士の資格試験を基に作られ、たとえば昨年は、この法解釈は正しいか、といった事が問われた事を教えました。
ーーーーーーーーーーーーーーーーー
最近花粉が飛んでますね。
目がかゆくてテストに集中できないことも・・・
花粉症の方は対策をお忘れなく。
(文責:鈴木)

3月1日の業務報告

こんばんは.4年みつゆきです.

ついに試験期間が目前に迫り今学期も終わりか…
といったところですが,私自身は今学期は一切講義を履修していなかったため,
試験勉強などを全くしなくていいのはうれしいのですが,
その感触というか感じを一切合財忘れてしまったため
来年度の1学期はかなり苦労しそうです…

さて,今日あった質問は次の8件でした.
明日が統計の考査のようなので,その過去問を持ち込んで
色々と相談した方が居たようで質問が多くなっています.
============================
【統計】
Q1. 2009年度の統計2の過去問。1(2)中位数の定義とはどう答えればいいのか。具体的な定義式等が必要なのか。
A1. 本人の考えていた答えを言ってもらったのですが、その答えで「定義」は十分洗わせていたようだったので、それでいいのでは、と答えました。具体的な定義式がなくても、同じ問題で具体的な値を答えさせていたので、値が間違っていれば式が間違っていることが出題者にはわかるのでおそらく式などは不要だと思います、と言い添えておきました。(澤木)

Q2. 2008年度の統計1の過去問。5車の燃費の平均についての検定の問題。この問題は両側検定で解くべきか片側検定で解くべきか。
A2. 教科書139pに片側検定と両側検定の説明が載っているのですが、そこを確認してみたところ、両側検定の例として「規格から外れては困る」という説明があげられており、車の燃費にそこまでの厳密性は必要ないのではないか、という結論に二人で達しました。(澤木)

Q3. 2008年度の統計2の過去問。1言葉の定義や設問にあるデータの場合の具体的な値を答える問題。「定義」と「どのようなことを表す量か」の説明の違い
A3. 設問の指示に「日本語での名称は必須」とあったため、どちらかの説明を、日本語での名称を使わず噛み砕いた説明にし、残りの一方を日本語での名称を使った説明にする、もしくは、片方を一般論にして、残りの一方を具体例にするなどの方法があるのでは、とアドバイスしました。(澤木)

Q4. 2007年度の統計の過去問。4薬の効果の検定。有意水準は自分で適当に決めてもいいのか。
A4. 一般的によく出てくる有意水準を使うか、別の問題で指示されていた有意水準を流用するなどの方法があるのでは、とアドバイスしました。(澤木)

Q5. 2008年度の統計1の過去問と2009年度の統計2の過去問。4薬の効果の検定。危険率と有意水準が、それぞれの問題で異なる値になっているが、これはどういう意味で考えていけばいいのか。 #2008年度の問題では危険率5%の有意水準95%、2009年度の問題では危険率3%の有意水準3%となっていた。
A5. 教科書140pによると「危険率=有意水準」で、「危険率 有意水準」というキーワードでGoogleで検索して出てきたページでもやはり同じように書かれているのですが、それでは問題の意味が通りません。「有意水準95%」を「有意水準5%」と考えるということも一瞬考えてはみたのですが、確証がなかったため、できれば長谷川先生に直接質問してみてほしいということ、もしくは、一緒に授業を受けていた友人たちとも考えてみてほしい、と答えました。(澤木)

Q6. 2008年度の統計1の過去問2(4)「大体の値」とは整数で答えてしまっていいのか。
A6. 同じ問題2の中で、小数第1位までの数が出現していたため、整数よりは、小数第1位までは答えた方がいいのでは、とアドバイスしました。(澤木)

Q7. 明日の統計のテストのために、今から勉強するなら何を重点的に勉強したらいいか。
A7. 今学期の課題2と、webにあげられている2007年度の課題2、試験問題、2008年度統計2の試験問題を持っていたため、自分が提出した今学期の課題2の確認と、試験問題の中の「必須問題」の確認、授業中に説明されたであろう「重要事項」の確認に加え、余裕があれば2007年度の課題2を実際に解いてみたらいいのでは、とアドバイスしました。(澤木)

【知識情報演習 III】
Q8. 後半第2回課題でハッシュのキーをソートしたいが上手くいかない。
A8. ソートの文自体が間違っているわけではないようだったので、ハッシュの構造を入れ替えることを提案しました。また、プログラムを書いた本人がハッシュの構造を把握しきれていないようだったので、一度、自分でハッシュの作りを図にしてみては、とアドバイスしました。(澤木)
============================

来年度は来年度で忙しいと思うので,少しでも楽ができるよう
ここで踏ん張って頑張りましょう.

(文責:池田 [twitter: lumely])

2月28日の業務報告

こんばんは.4年池田です.

最近fc2が非常に重く,画像ファイルが読み込めないことに
苛立ちを感じます.webの表示に関するルールでn秒ルールとか
いうのがあった気がしますが,あれも転送速度が高速化することにより
相当変わって来てるのでしょうね……
自分はwebを開いて3秒以上砂時計が出たらCtrl+Wします.
というわけでフルフラッシュなサイトはあまり好きではありません.

さて,今日あった質問は次の2件でした.
============================
【研究相談】
Q1. 統計の仮説検定の結果の書き方が分からず、自分なりに書いてきたのですが、これで合っているでしょうか
A1. 帰無仮説が棄却できない時の「○○について××と考えて矛盾はない」というかきかたは断定的、肯定的に感じるからこれはあまりお勧めしない。そもそも統計的仮説検定で帰無仮説を棄却できなかったということは、何も分からなかったということだ。と説明しました。質問者の方が統計の過去問を持っていたので、その正答や授業中先生がどういう風に書いていたかも参考にすると良いかもしれませんともアドバイスしました。(西野)

【知識情報演習 III】
Q2. 後半の課題で、「文書番号 単語 TF*IDF」というデータが入ったファイルと、クエリが入ったファイルから、クエリ内に含まれる単語の重みを文書ごとに集計し、各クエリに対する各文書を重み順にソートする課題。クエリが途中までしか読み込まれないままプログラムが終了する。
A2. while ($line = <>){}のように、引数による入力に対しwhile構文を用いていたのがうまく動かない原因だったため、一度ファイルを一気に読み込んで配列に格納してからそれをforeach構文で展開して使うという方法を紹介しました。さらに、条件文が間違っていたため網羅的にデータを読み込んで計算することができていなかったため、条件文を1から一緒に読み直してどのようにメソッドを組み合わせればいいかを教えました.
============================

今回は条件文に相当苦戦しました.
例えば
if @query[0] == $docid …
という条件があった時に,
query配列の0番目の要素とdocidという変数の値が一致した時…
というそのままの意味は当然すぐにわかるのですが,
それが何を意味しているのか,どのような意図をもっているのか
というのは自分程度の力ではまだまだ読み解くのに時間がかかります.

特に質問に来るような場合は,元々の「こうしたい」という意図と
その条件が微妙にずれているということが多いのですが,
その場で初めて見たコードから課題の意図とそのコードの間違い,
及びどのように修正すればいいかというのを考えて,
かつ答えそのものを教えないように質問者自身が理解して
修正できるように教えるというのは相当に至難の業です.

まあ,将来的には必要とされる技能であるとは思いますので,
これからも精進していきたいと思います.

(文責:池田 [twitter: lumely])