抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
ポストペタスケール計算機環境では,階層型タスク並列が有望なプログラミングモデルの1つであると考えられている。タスク並列型アプリケーションでは,タスクの再実行や冗長実行により,耐障害性を備えるように設計することは比較的容易であるが,その実装は容易ではない。よって,我々はそのようなアプリケーションの開発を容易にする耐障害アプリケーションフレームワークの開発を目指している。アプリケーションフレームワークでは,故障箇所を避けながら適切な計算ノード上でタスクを実行する資源管理機構が必要となるが,ポストペタスケール計算機環境でのスケーラビリティや,資源管理機構そのものの耐障害性,資源管理情報の永続化が課題となる。本稿では,スケーラブルかつ可用性の高い分散協調セルフスケジューリング機構を提案・設計する。提案する資源管理機構では,複数資源管理プロセスを分散協調させてタスクキューを管理し,タスクキュー内のタスクを各計算ノード上の実行デーモンプロセスが自律的に取得して実行する。また,各計算ノードの死活監視を行い,実行中に故障が発生した場合は選択的に再実行または削除する仕組みを提供する。資源管理プロセスの耐障害性と資源管理情報の永続化の実現方法を検討するため,Apache ZooKeeperを用いてこれらの機能を試験実装し,提案資源管理機構の妥当性と課題の明確化を行う。(著者抄録)