〜2章に関する質疑タイム〜 黛: モデル自身の符号長を考えたい場合は? ヒストグラムの例がわかりやすいが、一般的な場合(離散選択モデルのような場合)の符号長はどういう形で評価される?変数なのか? >金田: それは自分も引っかかった。 回帰分析でMDL分析を考えている資料を見た。 例:説明変数として5個あり、その中で一番いい組み合わせを考えたい場合には、2の5乗あるので、-log(1/s^5)となる。各モデルが均等に出てくるとすると、どういうふうにその発生確率があるのか、というふうにモデルの符号化をするのがいいと思う。 >黛: 単純に2^5があり、1つずつ試して、どれが一番いいのか試すのとは違うのか >金田: 現実問題の当てはまりが、確率的complexicity モデルを複雑にすればするほど、当てはまりはよくなる。これがモデルの符号長で評価される。 >黛: この2つの輪を目的関数にして最小化する意味は? >金田: さまざまなモデルの候補があるときに、モデル自身の符号長とデータの富豪長が最小になる時がベスト。 >黛: 他のデータに適用したいときにいいということか >金田: 過学習のようなもの。 P10の右上図を参照すると、1次だと荒い。 次数を増やしてモデルを複雑にすれば当てはまりはいいが、新しいデータに対して適用されない。 加藤: P.23のセル数は何か?階級の数?結局何を評価しているのか? セル数を増やせる状況とは、どのような状況なのか? 確率密度関数において、セル数を無限に増やせるなら限りなく近づくのでは。 >金田: 手元のデータについてはそうだが、母集団に対して本当にfitしないかもしれない。 過学習みたいなこと。 >加藤: セル数とパラメータ数は別の話? >金田: セル数とパラメータ数は同じ話。 セル数を考えるのは、それゆえ。 >加藤: シータは確率密度関数のパラメータというわけじゃないのか。 >金田: 階級に対する高さがシータ、というふうにシータを当てている。 パラメータ数kを元に、モデルを最適化する、とういのがこれら2つの基準。 しかし使われ方が微妙に違う、というのが2章。 全体質疑タイム: [B4質問] 林: (聞き取れませんでした) MNL同士とかなら比較できると思うが、MNLとNLなど、異なるモデル同士を比較、などはどの程度可能なのか。 >金田: 難しい。モデルの集合の中から良いモデルを選ぶとう考え方だから、MNLとNLを1つの集合とするような一般化ができるのであれば、その中から良いものを選ぶ、ということは可能な気がする。 モデルの中から、発生率を符号長として表すのがMDL基準だから。 >浦田: 一般化されているから...できそうですね。 >金田: こうすれば符号長がもとまる、ということ、符号長を定める部分が必要になると思う。 [年長チーム] 黛: 3章はアルゴリズムは、真の分布が確率モデルクラスにあることを仮定しない、とあったが、どういう定義か。 モデルクラスはモデルの集合ではないと思うが、何か。 >金田: P17に確率モデルクラスの記載あり。 確率モデルは、パラメータシーたを入れると確率分布になる 真の分布が確率分布モデルクラスの中にある=今対象としている確率モデルの中に含まれている場合。 >黛: データの生成確率であって、モデルの集合を分布として表ているわけじゃないということか。 >金田: データ列の分布。 データ列はあまり考えずに、確率モデルはパラメータシータによって決まる シータが変わる中で分布が変わる、その集合。 このデータ列は、実際のものではなく、考えうる集合の中のデータ列のこと。 >羽藤: 月田、モデルの比較とかしていたが何かないか。 近藤: 最初の方の情報量、文字コードみたいたところとの繋がりは? >金田: 人間が扱う情報を01に表すのが符号化 たくさん使う文字を短くするのが効率的 効率的な符号化をすることが、現実的なことを表現しているのに近い、ということ >近藤: 文字コードの決め方が、モデル、ということか。 >金田: ある文字と符号を対応させる、という符号化のことと、データ列に対してうまく符号化することは、良い感じの確率を探すことと似ているから、符号化は確率分布を探すことに近いということ。 >近藤: 多分理解した。 >羽藤: 大事なとこだね。アクティビティパターンとかは符号だよね。 全員自宅にずっといるままなら、111..の圧縮が効く、みたいな話でしょ。 うちらがやっているモデルと符号化の関係は何か、という質問だね。 >金田: P10に集結される。 学習とは、なるべくデータを圧縮できる構造を見つける作業である、というのが、学習と符号化のつながり。 >近藤: 現実の文字コードとかもそうなっている? >金田: 違うと思うが、効率的なのはそう。 データ、はp5のひらがなに対応して、それらの発生確率を推定することに近い。 >羽藤: 画像とかはそれだ。 黒画面は、黒、ただそれだけ。 圧縮技術が一番高いものを見つけるということですね。