●月田 B4チーム:EMについてまったくわからない.ので教えてください. A:EMは欠損地があるデータを教師データとしたときに良い推定値を得るための手法.たとえば,アンケートをした時に,性別を途中から記録し始めた,とか,津波きたときにどこにいた(流された人はデータなし),とか.ニューラルネットワークだと,中間値は欠損.EMでは,パラメータをまず適当におく(スライド27).どういう観測がされるかの期待値を計算(Eステップ).その次に,期待値を観測点として(欠損データについて)そのときに対数尤度を最大化するようなパラメータを求める(Mステップ).EとMを繰り返すことでパラメータの収束させる.つまり,欠損の期待値を推定できる. 倉澤:ここで,欠損は離散的な量だが,性別とかのときは? A:たとえば男0女1としたとき,50%50%だったら0.5になるし,女性多い母集団だったら,0.8とかになることもある. 倉澤:パターンわけが難しいこともあるとおもうがその時はどうする? A:何パターンにわけるというのは,最初にこっちから与える必要がある.それぞれのグループに属する確率が何%か,というのは,モデルのなかでやってくれる. 増橋:よくわからない違う挙動を示す集団を2つのグループにわけるみたいな,あたりをつける?なんとなく分けた? A:前田さんの去年の資料が正しくて,たとえば,分布をみて,2グループに分けてよくなりそう,ってやるか,別の指標をもってきて,何グループにわけるのがいいかみる. M1ちーむ:EMとemは結局どうちがう?EMは使われ方の想像がついたが,emがわからない.emはどういうときにつかう?EMがつかえないときにemをつかうのか?EMとem等価だとなにがうれしいか? A:これはEMとemが数学的に等価だと書いた論文.EMというのは最尤推定量を考えていて,統計学的にはこちらが自然な発想だと思う.emは統計的な推論ではなくて,データを多様体におとしこめる.情報幾何学的に考えるとemのようなのが自然な発想.条件付き確率を計算するEステップのほうがe射影より計算量が大きい可能性がある,と書いてあった.これは,Eは条件付き確率を考えているため. はかせちーむ:24ページの非とくい行列Aは,なんでもいいAなのか?あとで明らかにしなきゃいけないA? A:明らかにしなければならないA. 黛:Aをもとめるというのも推定の目的? A:推定の前に分けておかなければならないものと認識している. 黛:Aというものを,いきなりつくれるのか?計算手続きを論文ではかいていないのできになった. A:たとえば,男女どっちか,みたいなのはその時点いーたvisibleとイータhiddenにわけられる.26ページにあるように,よくわからないときに,わけるためのものがAであると解釈している. 黛:イータをhiddenとvisibleに分けてるのが26ページの式.この操作が行列Aによってなされるということか. A:モデルによって行列Aは自分でつくる必要がある.