GE7 1701

テキスト処理

Text Processing

学期曜時限

1 学期 水曜日 1・2時限

教室

7A201
春日実習室II

3・4年

2単位

担当教員

佐藤 哲司

オフィスアワーと研究室

火5・6限 205

授業概要

電子出版,ウェブでの情報発信など,デジタル化によって書籍の出版・流通・利用の形態が大きく変容してきている状況を視野に入れ,編集や検索,翻訳など,テキストを有効利用するための要素となるテキスト処理技術と,これらの技術を応用した様々なシステムについて理解を深めます.

学習・教育目標

テキスト処理の要素技術を習得し,様々なシステムの中で実現されている機能を理解することで,テキストの作成・管理・流通を効率よく行う基礎知識を習得する.より高度なテキスト処理技術への発展や,新規な機能を有するシステムを研究開発するための基本スキルを身につけことを目標とします.

授業計画

  1. 文字コードの成り立ちとコード変換
  2. 統計量に基づく文字コード識別
  3. テキストの構造理解
  4. テキスト流通とデスクトップパブリッシング
  5. XMLによる文書の構造化
  6. 文字列照合と正規表現
  7. 文書からの索引構成法
  8. 文書の特徴量と文書間の類似性判別
  9. 情報検索の評価方法と文書推薦への応用

成績評価の方法

筆記試験による評価.

教材・教科書・参考書等

主要部分についてテキストを配布します(配布方法は備考欄を参照のこと).
参考書:情報検索アルゴリズム,北研二 他著,共立出版

履修要件
前提知識,他科目との関連等

特になし

授業外の学習内容・方法

各回の講義後半は演習問題に取り組みます.講義時間中には解法の筋道を示すことに重点を置くので,授業外の時間を活用して具体的なデータで実践してください.

備考
講義のホームページ等

講義で使用するテキストはhttp://www.slis.tsukuba.ac.jp/~satoh/index-j.htmlからたどれるようにしますので.各自で所定の様式に印刷して持参してください.詳細は第1回に説明します.