特許
J-GLOBAL ID:200903084236110421
並列計算機システムのチェックポイントリスタート方法
発明者:
,
出願人/特許権者:
代理人 (1件):
鈴木 誠
公報種別:公開公報
出願番号(国際出願番号):特願平8-270874
公開番号(公開出願番号):特開平10-116261
出願日: 1996年10月14日
公開日(公表日): 1998年05月06日
要約:
【要約】【課題】 並列ジョブを実行する任意の計算機で障害が発生した時に、リスタート後の並列ジョブ全体の実行時間を短縮する。【解決手段】 並列ジョブ実行制御マスタ11は、計算機10-3の障害報告を受けると、それを障害の発生していない計算機10-2に通知する。計算機10-2は、ジョブの実行をそのまま継続し、障害の発生した計算機10-3に対して通信要求が発生すると、当該ジョブの実行を中断する。その後、計算機10-3の障害が回復すると、並列ジョブ実行制御マスタ11は、それを計算機10-2に通知する。これを受けて、計算機10-2は、中断していた当該ジョブの実行を再開する。
請求項(抜粋):
複数の計算機がネットワークで結合され、ジョブを複数の計算機に振り分けて実行する並列計算機システムにおいて、各々の計算機が所定の時点毎にジョブの実行情報を当該計算機の具備する外部記憶装置に格納し、障害が発生した時に、前記格納した情報を元にジョブの状態を障害発生前の時点に回復してジョブの実行を再開するチェックポイントリスタート方法であって、任意の計算機で障害が発生した時に、障害の発生していない計算機は、ジョブを引き続いて実行して、前記障害の発生した計算機に対して通信要求や当該計算機資源に対するアクセス要求(以下、通信要求で総称する)が生じた時点でジョブの実行をサスペンド状態にし、前記障害の発生した計算機が障害を回復すると、前記障害の発生していない計算機は、前記サスペンド状態を解除してジョブの実行を再開する、ことを特徴とする並列計算機システムのチェックポイントリスタート方法。
IPC (3件):
G06F 15/16 470
, G06F 9/46 360
, G06F 11/14 310
FI (3件):
G06F 15/16 470 R
, G06F 9/46 360 Z
, G06F 11/14 310 B
前のページに戻る