タイトル

科目番号 教室 登録人数 履修登録方法 対面/遠隔
知能334   [金5]工2-313   45   抽選対象   対面授業  
開講年度 期間 曜日時限 開講学部等
2024 前学期 金5 工学部工学科  
講義コード 科目名[英文名] 単位数
617036001 データマイニング   2  
担当教員[ローマ字表記]
當間 愛晃  
授業の形態
講義、演習又は実験
 
アクティブラーニング
学生が自身の考えを発表する、フィールドワークなど学生が体験的に学ぶ、学生が文献や資料を調べる
 
授業内容と方法
注意
(a) 知能情報コースの専門科目(科目番号:知能334)と、他コース向けの融合選択科目(科目番号:知能984)の同時開講です。受講登録を間違えないようにしてください。
(b) Pythonプログラミング可能なことを前提としています。ある程度の相談には乗りますが、プログラミング未経験からの勉強だと授業期間内での単位取得は厳しいでしょう。

=========
統計学や機械学習を道具として用いた分析を行い、何らかの知見を得る活動のことをデータマイニングと呼ぶ。
本授業では主に座学により機械学習の理論を学ぶとともに、演習や課題を通してその適用や改善案を体験する。

機械学習の基礎については Part 1, 2 により従来型アプローチ(前処理+特徴量設計し、適切なアルゴリズムを適用する)を学ぶ。
Part 3 では自然言語処理を例に従来型アプローチと深層学習アプローチとの違いに触れ、考え方や適用方法の違いを概観する。
Part 4 では自然言語処理を含むいくつかの応用例を紹介する。

用意したコード例を実行するための環境は各自で用意することを想定しています。相談にはのります。
環境構築できない人向けには Google Colab の利用を想定しています。ただしすべての課題を十分こなせるかどうかは未確認。

=====
[2024/3/25] 仮シラバス。修正時には以下に列挙していきます。
 
URGCC学習教育目標
社会性、情報リテラシー、問題解決力、専門性
 
達成目標
- 提示された問題において、データセットがどのような背景・状況でどのように構築されたのかを理解する。
- マイニングに必要なデータ(特徴/説明変数/素性)の前処理・特徴量設計を検討・実施することができる。
- 前処理・特徴量設計されたデータセットに対し、データマイニングを適用することで得られた知識を可視化・解釈する手段について検討・実施することができる。
- 目標に応じて問題設計・達成評価軸設計し、シミュレーションやテストにより比較検証することができる。
- (可視化・解釈した結果から有用な知識にについて説明することができる)
 
評価基準と評価方法
<評価基準>
- 課題で用意された、もしくは自ら用意したデータセットについて説明できる。
- データの前処理・特徴量設計を検討し、実施することができる。
- 前処理・特徴量設計されたデータセットに対し、データマイニングを適用し、その結果について考察することができる。
- 問題設計・達成評価軸設計し、シミュレーションやテストにより比較検証することができる。

<評価方法>
- レポート(70%)、口頭試問(10%)、ミニテスト(10%)、Q&A討論(10%)
- それぞれのレポートは100点満点で採点するが、70%への換算時には難易度に応じた重み付けをして調整する。(簡単なレポートは重みが小さくなり、配点が小さくなります)
- 原則として全てのレポートを提出すること。
- 期限を遅れて提出する場合には遅延日数に応じて減点する。
- レポートは数週間に一度、合計3〜5回を想定している。課題量は例年通りですが、課題を細分化して提出させることを想定しているため回数が未確定です。
- レポートのうち1回は口頭試問(レポートに関する口頭確認)を予定しているが、実施困難となる場合にはレポートに代替する。
- ミニテストは原則として毎週授業中に実施する。
- Q&A討論は、資料や課題に関する予習復習を通した疑問点について、Teamsもしくは授業中の討論である。討論への貢献度により採点する。具体的には (1) 相談する度に1ポイントカウント、上限8点まで。(2)回答する度に3ポイントカウント、上限12ポイントまで。10ポイントを超えた分については加点として扱います。
 
履修条件
- プログラミング系科目。Python推奨。
 - Pythonの説明はしません。初心者は https://prog-8.com/ で事前学習をおすすめします。
 - 他コース学生でがっつりやりたい人は1年次の講義(2024年度版)をどうぞ。 https://ie.u-ryukyu.ac.jp/~tnal/2024/prog1/static/Readme.html
 - Numpy, Pandas等のPython標準ではない、追加パッケージについては説明します。
- 知能情報コースの「データサイエンス基礎」か、もしくは統計学・統計モデリング・数理統計系科目。

以下は履修しているとベターな科目です。
- 知能情報コースの「人工知能」や「機械学習」、それらに相当する同等科目。

演習環境について:知能情報コース外からの履修にあたっては、なるべく早めの相談を。少なくともGoogleアカウントを事前作成しておくこと。
より詳細は https://ie.u-ryukyu.ac.jp/~tnal/2024/dm/static/1-intro/env.html を参照ください。
 
授業計画
Part 1. 導入
1. イントロダクション
2. 機械学習概観(定義と演習)
3. モデルとその自由度、過学習
- レポート1予定

Part 2, 特徴量エンジニアリング(数値・カテゴリデータ)
4. 機械学習における特徴、数値データの取り扱い
5. 特徴毎の比較検討(演習)
6. カテゴリデータの取り扱い、復習
- レポート2予定

Part 3. 特徴量エンジニアリング(テキストデータ)
4〜6週間で調整中。以下は予定です。
- 自然言語における特徴例(bag-of-words, n-gram, 形態素解析, シソーラス等)
- 分散表現と分布仮説
- word2vec
- ニューラルネットワーク入門
- 深層学習入門(サブワード、単語埋め込み、言語モデル、系列モデリング)
- レポート3,4予定

Part 4. タスクとマイニングアルゴリズムの例
最後の数週間で以下のような応用例を紹介します。
- 次元削減(PCA, t-SNE)
- 頻出パターンマイニング(アソシエーション分析)
- トピックモデル
- 時系列データ分析(AR, ARIMA)

15. まとめ

Part 3 については、RNN・LSTM・seq2seq・LLM等の追加も検討中。
Part 4 については、推薦・可視化・グラフマイニング等、他例への変更も検討中。
 
事前学習
各回のキーワードについて参考文献やWeb検索等を通して気になる点をピックアップしておくこと(約1時間)
 
事後学習
授業中に理解が不十分な部分を配布資料で確認すること。別途用意するフォームを活用し、オンライン討論に参加すること。課題に取り組むこと。(約2時間)
 
教科書にかかわる情報
 
教科書全体備考
教科書は特に指定しない。可能な限り参考図書を示しつつ授業資料を用意する。
 
参考書にかかわる情報
参考書 書名 ISBN
978-4-87311-868-0
備考
機械学習を具体的なタスクに適用しようとした際に直面する「あるある事例集」。
著者名
Alice Zheng, Amanda Casari著 ; ホクソエム訳
出版社
オライリー・ジャパン
出版年
2019
NCID
参考書 書名 ISBN
978-4595313738
備考
代表的なアルゴリズムの解説本。1冊にまとめてるためにやや急ぎ足ですが、多数のアルゴリズムを概観するならオススメ。
著者名
秋光淳生著
出版社
放送大学教育振興会
出版年
2012
NCID
参考書 書名 ISBN
978-4-87311-821-5
備考
タスク視点から整理した事例集。
著者名
有賀康顕、中山心太、西林孝 著
出版社
オライリー・ジャパン
出版年
2017
NCID
参考書 書名 ISBN
978-4-87311-794-2
備考
データマイニングを含むより広い視点での取り組み方に関する話。
著者名
Jacqueline Kazil, Katharine Jarmul著 ; 長尾高弘訳
出版社
オライリー・ジャパン
出版年
2017
NCID
参考書 書名 ISBN
9780128042915
備考
代表的なアルゴリズムとそれを用いた事例集。深層学習まで含みます。
著者名
Ian H. Witten ... [et al.]
出版社
Morgan Kaufmann
出版年
2017
NCID
 
参考書全体備考
・「word2vecによる自然言語処理」, https://www.oreilly.co.jp/books/9784873116839/
・「時系列分析と状態空間モデルの基礎: RとStanで学ぶ理論と実装」, https://www.amazon.co.jp/dp/4903814874
・ゼロから作るDeep Learning ❷ ――自然言語処理編, https://www.oreilly.co.jp/books/9784873118369/
・「大規模言語モデル入門, 2023」, https://www.amazon.co.jp/dp/4297136333 *実際にLLM動かしながら学びたい人におすすめ。
 
使用言語
日本語
 
メッセージ
1. 知能情報コース以外の学生は、Googleアカウントを準備ください。
2. データマイニングは幅広いテーマであることから参考書提示に留めていますが、可能な範囲で参考文献や授業中に例示する文献等に目を通し、興味のある事例を掘り下げて勉強してみてください。少なくとも1つ以上のアルゴリズムについて、その中身を説明できる(≒実装できるレベルで理解する)ことを目指しましょう。

【更新情報】
[2024/3/25]
 ・対面とオンラインの併用を想定しています。体調不良の場合には理由を問わずオンライン参加ください。
 ・オンライン用のZoomリンクについては、一回目はwebclassにて当日告知します。
 
オフィスアワー
時間帯:毎週木曜日、2時限目(調整中)
場所:工1-705室
 
メールアドレス
この項目は教務情報システムにログイン後、表示されます。
 
URL
https://ie.u-ryukyu.ac.jp/~tnal/2024/dm/
 

ページの先頭へ