統計力学と計算理論の融合的アプローチによる劣線形モデリング
本研究拠点では,統計力学的な情報粗視化技法と現在のデータサイエンス分野において先導的な役割を果たしている確率的情報処理理論との連携によるビッグ データに対する新しい普遍的劣線形モデリングパラダイムの提案と,更に,統計力学と計算理論との連携による提案モデル上での高効率な近似計算アルゴリズム の設計理論の構築を目的とし,ビッグデータの劣線形モデリングを基礎としたビッグデータに適した統計的予測モデルとそのアプリケーションの開発を行う.
統計力学的粗視化アプローチによるビッグデータの劣線形モデリング
超大規模なビッグデータを実用的に扱うためには,データ数に対して劣線形的なアプローチが必要である.そのために,本研究では平均場理論や繰り込み理論な ど統計力学が過去に成功を治めてきた情報粗視化のための方法論的をアプローチの手掛かりとし,ビッグデータの統計力学的知見に基づく情報圧縮モデリング, すなわち,大規模データの小規模システムへの統計力学的写像法を基にしたモデリングのためのロバストな普遍理論の構築を目指す.
ビックデータ中の劣線形スパース構造の抽出理論
スパースな(少数の重要な)相関関係の発見はビッグデータの情報量削減に大きく貢献し得る.仮に,与えられたビッグデータ中にスパースな関連があったとす る.逆に考えれば,スパースに関連しあっている少数のデータ以外のデータ間には関連性がないことが分かるのである.関連性のないデータはそれぞれ独立に計 算処理が(場合によっては無視することが)可能になり,その結果として全体的に非常に高速な計算処理が可能になるのである.本研究では,統計学や機械学習 理論分野の方法である正則化理論と統計力学理論を用いて,ビッグデータの中のスパースな相関関係を抽出するというアプローチによる情報量削減法を開発する.
ベイズ的アプローチによるビックデータのクラスタリング理論
ビッグデータ中の個々のデータを性質ごとにクラス分け(クラスタリング)し,事前にデータを分類してしまうことにより,目的の計算処理に必要なデータとそうでないデータをあらかじめ選定することができ,データ数の削減が可能となる. 本研究では統計力学理論と機械学習理論の方法を駆使して,高速にビッグデータをクラスタリングする手法を開発する.
データクラスタリングは非常に本質的な処理であるので,当研究目的であるデータ量削減のみならず,実際多岐にわたる応用をもつ(例えばソーシャルネットワークのコミュニティ抽出等).そのため,当研究プロジェクトの他のチームとの連携も期待されるテーマである.
計算理論と統計的近似計算理論の融合による大規模システム上での高効率な計算アルゴリズムの設計理論
上記の研究テーマのほとんどと最終的な目標の一つであるビッグデータを用いた確率予測システムは,その計算内部に組み合わせ最適化やグラフ理論の中に出現 する基礎的ではあるが計算量的に非常に難しい問題を多数含んでいる.そのため,その部分の計算処理を効率化しなければ処理全体の深刻なボトルネックになっ てしまう恐れがある.本研究では最大フロー計算を始めとした計算理論の中で培われてきた効率的な計算アルゴリズムと統計力学的近似理論とを融合させること で、ビッグデータ解析に特化した新しい種類の高品質計算アルゴリズムを開発する.
メンバー
氏名 | 所属 | 役割 |
---|---|---|
田中 和之 | 東北大学 大学院情報科学研究科 | 全体総括 |
大関 真之 | 東北大学 大学院情報科学研究科 | 研究メンバー |
片岡 駿 | 小樽商科大学 商学部 | 研究メンバー |
安田 宗樹 | 山形大学 大学院理工学研究科 | 研究メンバー |
西森 秀稔 | 東京工業大学 大学院理工学研究科 | 研究メンバー |
奥山 真佳 | 東北大学 大学院情報科学研究科 | 研究メンバー |
荒井 俊太 | 東北大学 | リサーチアシスタント |
金子 真大 | 東北大学 | リサーチアシスタント |
佐藤 豪人 | 東北大学 | リサーチアシスタント |
丸山 尚貴 | 東北大学 | リサーチアシスタント |
三輪 信嘉 | 東北大学 | リサーチアシスタント |
渡邊 大地 | 東北大学 | リサーチアシスタント |
勝亦 利宗 | 山形大学 | リサーチアシスタント |
加藤 航太 | 山形大学 | リサーチアシスタント |
菅野 友理 | 山形大学 | リサーチアシスタント |
千田 翼 | 山形大学 | リサーチアシスタント |
矯 徳慧 | 山形大学 | リサーチアシスタント |
井口 大輔 | 東北大学 | リサーチアシスタント |