革新知能統合研究センター オンライン意思決定ユニット

研究概要

本多 淳也 (D.Sc.)

動的な意思決定が必要な諸問題のためのアルゴリズムの研究を行っています。意思決定を行う現実の場面では対象について十分なデータや知識がある場合は必ずしも多くなく、ある程度の試行錯誤を繰り返しながらよい候補を模索する必要が現れます。特に、実際に試行を行った候補についてのみ情報が得られる環境下で報酬の最大化や期待値最大の候補の発見を目指す問題はバンディット問題とよばれ、当ユニットはそれらの問題に対して性能の限界とそれを実際に達成するアルゴリズムの確立を行っています。

研究主分野

  • コンピューター科学

研究関連分野

  • 数学

研究テーマ

  • バンディット問題
  • 実験計画法

主要論文

「*」は、理研外のみでの成果です。

  • 1.*Komiyama, J., Honda, J., and Nakagawa, H.:
    "Copeland Dueling Bandit Problem: Regret Lower Bound, Optimal Algorithm, and Computationally Efficient Algorithm"
    The 33rd International Conference on Machine Learning (ICML2016), pp.1235-1244, (2016).
  • 2.*Honda, J., and Takemura, A.:
    "Non-Asymptotic Analysis of a New Bandit Algorithm for Semi-Bounded Rewards"
    Journal of Machine Learning Research, vol.16, pp.1721-3756, (2015).
  • 3.*Komiyama, J., Honda, J., and Nakagawa, H.:
    "Regret Lower Bound and Optimal Algorithm in Finite Stochastic Partial Monitoring"
    The 29th Neural Information Processing Systems (NIPS2015), pp.1783-1791, (2015).
  • 4.*Komiyama, J., Honda, J., and Nakagawa, H.:
    "Optimal Regret Analysis of Thompson Sampling in Stochastic Multi-armed Bandit Problem with Multiple Plays"
    The 32nd International Conference on Machine Learning (ICML2015), pp.1152-1161, (2015).
  • 5.*Komiyama, J., Honda, J., Kashima, H. and Nakagawa, H.:
    "Regret Lower Bound and Optimal Algorithm in Dueling Bandit Problem"
    The 28th Annual Conference on Learning Theory (COLT2015), pp.1141-1154, (2015).
  • 6.*Honda, J., and Takemura, A.,
    "Optimality of Thompson Sampling for Gaussian Bandits Depends on Priors"
    Seventeenth International Conference on Artificial Intelligence and Statistics (AISTATS2014), (2014).
  • 7.*Honda, J., and Takemura, A.:
    "Stochastic Bandit Based on Empirical Moments".
    Fifteenth International Conference on Artificial Intelligence and Statistics (AISTATS2012), pp.529-537, (2012).
  • 8.*Honda, J., and Takemura, A.:
    "An Asymptotically Optimal Policy for Finite Support Models in the Multiarmed Bandit Problem"
    Machine Learning, vol.85, pp.361-391, (2011).
  • 9.*Honda, J., and Takemura, A.:
    "An Asymptotically Optimal Bandit Algorithm for Bounded Support Models".
    The 23rd Annual Conference on Learning Theory (COLT2010), pp.67-79, (2010).

関連リンク

お問い合わせ先

277-8561 千葉県柏市柏の葉5-1-5 東大基盤棟5H1
Email: junya.honda [at] riken.jp
※[at]は@に置き換えてください。

Top