LDA(Latent Dirichlet Allocation)の論文を読む

大学での研究のベースとなりそうなLDA(Latent Dirichlet Allocation)の論文を読み始めました。

LDAは、文書が生成されるプロセスとして以下の2つの確率分布を仮定しています。

  1. トピックごとの単語分布: 各トピックにおいて、どの単語が出現しやすいかという確率分布。(例:「テクノロジー」トピックなら「AI」「データ」「Apple」が出やすい)
  2. 文書ごとのトピック分布: 各文書が、どのトピックをどのくらいの割合で含んでいるかという確率分布。(例:あるニュース記事は「テクノロジー」70%, 「経済」30%)

LDAは、観測されている「文書」と「単語」の情報から、これらの背後にある「トピックごとの単語分布」と「文書ごとのトピック分布」を同時に推定します。これにより、文書がどのようなトピックで構成されているかを分析するというものです。

大雑把にはこのように理解したのですが、論文中の数式を理解して、数学的な意味から理解できるように読み込んでいきたいと思います。