...

講演資料 - Center for Computational Sciences, University of Tsukuba

by user

on
Category: Documents
0

views

Report

Comments

Transcript

講演資料 - Center for Computational Sciences, University of Tsukuba
PACS-CSの利用法
朴 泰祐
計算科学研究センター/システム情報工学研究科
[email protected]
http://www.hpcs.cs.tsukuba.ac.jp/~taisuke/
2008/04/24
PACS-CSシンポジウム2008
Center for Computational Sciences, Univ. of Tsukuba
内容
„
„
„
„
„
„
PACS-CSシステムの構成
PACS-CSシステムと周辺環境
ジョブ投入と入出力の概念
ジョブ実行の様子
昨年度利用状況
まとめ
2008/04/24
2
PACS-CSシンポジウム2008
Center for Computational Sciences, Univ. of Tsukuba
PACS-CSの特徴
„
科学技術計算向け超並列クラスタ計算機
„
„
„
„
„
„
メモリとネットワークのバンド幅を重視
single-core / node
⇒ 1つのCPUコアがノードのメモリとネットワーク性能を占有
3次元ハイパクロスバ網による3次元直交ネットワーク
⇒ 物理モデルの直接マッピングに最適
一般のPCクラスタと同程度の実装密度
Gigabit Ethernet を多用したマルチリンク・多次元通信
2560ノードの超並列システム
„
„
„
„
„
従来のMPPをコモディティベースで開発
大規模計算科学シミュレーションがターゲット
ジョブ当たり128~2048ノードを利用
数TFLOPS/ジョブ程度の高性能志向運用
比較的長時間のジョブ実行:最大48時間/ジョブ
2008/04/24
3
PACS-CSシンポジウム2008
Center for Computational Sciences, Univ. of Tsukuba
PACS-CSシステム諸元
ノード台数
2560 (16 x 16 x 10)
理論ピーク性能
14.3 Tflops
ノード構成
単一CPU / ノード
CPU
Intel LV Xeon EM64T, 2.8GHz, 1MB L2 cache
(5.6 GFLOPS peak)
メモリ容量・バンド幅
2GB/CPU 6.4GB/sec/CPU
並列処理ネットワーク 3次元ハイパクロスバ網
リンクバンド幅
単方向 250MB/s/次元
単方向 750MB/s (3次元同時転送時)
ローカルHDD
160 GB/ノード(RAID-1)
総システムサイズ
59ラック
総消費電力(推定)
545 kW
2008/04/24
4
PACS-CSシンポジウム2008
Center for Computational Sciences, Univ. of Tsukuba
専用マザーボード開発
SATA
RAID-1
CPU
LV-Xeon
2.8GHz
160GB
HDD x 2
Front
HDD#1
South Bridge
PXH
memory
HDD#3
HDD#2
HDD#4
North Bridge
PXH
133MHz/64bit
PCI-X x 4
Gigabit
Ethernet
× 8 ports
運用系
ネットワーク
管理系
ネットワーク x0 x1 y0 y1 z0 z1
データ系ネットワーク
Power Unit
GbE GbE GbE GbE
Mother
Board
#1
Mother
Board
#2
Rear
1Uシャーシに2台のマザーボード
2008/04/24
5
PACS-CSシンポジウム2008
Center for Computational Sciences, Univ. of Tsukuba
マザーボード写真
CPU
Chipset
PCI bridge
GbE NICs
VGA
USBx2
Memory
8 ports
of RJ-45
2008/04/24
6
PACS-CSシンポジウム2008
Center for Computational Sciences, Univ. of Tsukuba
3次元HXBネットワーク(16x16x10=2560 node)
X次元スイッチ
・・・
・・・
・・・
・・・
・・・
・・・
・・・
・・・
・・・
Z次元スイッチ
・・・
Z=10
Y=16
Y次元スイッチ
Computation node (CPU)
単一次元方向のみの
スイッチによる転送
複数次元方向のスイッチ
による転送
(中継ノード必要)
・・・
・・・
X=16
in the figure
real connection
(dual link trunking)
PACS-CS全体システム構成
計算用スイッチ ×348
(48 port GbE)
PACS-CS
(LV Xeon 2.8GHz ×2560)
管理系スイッチ
スイッチ監視用計算機×1
集中コンソール装置×3
運用系スイッチ
磁気ディスク装置
11.4TB
フロントエンドサーバ×2
クラスタ管理サーバ×3
ファイルサーバ×1
計算科学研究センター
計算機棟LAN
センター内利用者
2008/04/24
8
PACS-CSシンポジウム2008
Center for Computational Sciences, Univ. of Tsukuba
フロントエンドサーバ
„
センター外(学外)からのアクセスポイント
„
„
„
ホスト名:ccshfr1.ccs.tsukuba.ac.jp
(代替ホスト:ccshfr2.ccs.tsukuba.ac.jp)
sshでのみログイン可能
基本的に全てのユーザ処理はこの上で
„
„
„
„
コンパイル
ファイルサーバ上のファイル編集等
ジョブ投入、モニタリング
scp等による外部とのファイルのやり取り
2008/04/24
9
PACS-CSシンポジウム2008
Center for Computational Sciences, Univ. of Tsukuba
ファイルサーバ
„
約110TBの大容量ファイルサーバ
„
„
„
„
フロントエンドサーバからアクセス可能
PACS-CSの代表ノードからアクセス可能
PACS-CSの代表ノード以外のノードからは、「入出力フェーズ」
(後述)において間接的にアクセス可能
共同利用においては各プロジェクト単位でグループディレ
クトリを提供(容量制限あり)
„
/work1/group/user, /work2/group/user, /work3/group/user
2008/04/24
10
PACS-CSシンポジウム2008
Center for Computational Sciences, Univ. of Tsukuba
ジョブの実行とファイルアクセス
„
PACS-CSジョブは原則としてMPIによる並列プログラム
„
„
„
MPICH及びYAMPIを提供
通常のMPIプログラムと互換
PACS-CSにおけるファイル処理の原則
„
„
„
„
ファイルサーバを直接参照できるのは「代表ノード」のみ(64ノードに1台)
原則として、ファイルサーバ上のファイルを各計算ノードのローカルディスク
(/work 領域)にコピーして参照
ローカルディスク=160GB (RAID-1)
計算終了後、各計算ノードのローカルディスク上のファイルをファイルサーバ
に転送
ジョブ終了後は各計算ノードのローカルディスク上にはファイルを残さない
2008/04/24
11
PACS-CSシンポジウム2008
Center for Computational Sciences, Univ. of Tsukuba
3フェーズ実行
I
Input
E
入力フェーズ
+
実行フェーズ
Execute
+
O
出力フェーズ
Output
入力フェーズ:ジョブ実行前に、入力ファイルをファイ
ルサーバから計算ノードに転送
ユーザが用意したジョブ構成定義ファイル
を元に、ccshfr1上の制御ジョブが付加
出力フェーズ:ジョブ実行後に、出力ファイルを計算
ノードからファイルサーバに転送
3フェーズジョブとして、クラスタ管理サーバに投入され、
順々に実行
2008/04/24
12
PACS-CSシンポジウム2008
Center for Computational Sciences, Univ. of Tsukuba
パーティション構成
ユーザの状況に応じ組み合わせを変えて運用
2008/04/24
13
PACS-CSシンポジウム2008
Center for Computational Sciences, Univ. of Tsukuba
パーティションサイズとキュー構成
2008/04/24
14
PACS-CSシンポジウム2008
Center for Computational Sciences, Univ. of Tsukuba
パーティションサイズとキュー構成(続き)
2008/04/24
15
PACS-CSシンポジウム2008
Center for Computational Sciences, Univ. of Tsukuba
ジョブ構成定義ファイル
ジョブ構成定義ファイル例
* : type = mkdir -p %s
/work/HITACHI/hitachi2/sample
0 : type = put
PU512S3のノード全体に、ジョブ実行用
のディレクトリを作成
include = inputlist
job_step_1: type = job
class = q512sS3
job_name = sample.jcl
0 : type = get
include = outputlist
mpiランク0対象ノードに、
“inputlist”の指定に従いファイル転送
PU512S3で、“sample.jcl”を実行
mpiランク0対象ノードから、
“outputlist”の指定に従いファイル転送
2008/04/24
16
PACS-CSシンポジウム2008
Center for Computational Sciences, Univ. of Tsukuba
入力(出力)ファイルリスト
入力ファイルリストの例
/hfs-work1/COMP/taisuke/sample/input.0 /work/COMP/taisuke/sample/input.0
/hfs-work1/COMP/taisuke/sample/input.1 /work/COMP/taisuke/sample/input.1
/hfs-work1/COMP/taisuke/sample/dat.$mpirank
“$mpirank” の指定がある場合は、
MPI上のランク番号に対応する
ノードにのみ、そのファイルが
転送される
/work/COMP/taisuke/sample/dat
ファイルサーバ上のワークディ
レクトリ以下にある入力ファイ
ルを、計算ノードのワークディ
レクトリ以下に転送する。
2008/04/24
17
PACS-CSシンポジウム2008
Center for Computational Sciences, Univ. of Tsukuba
ジョブ実行スクリプト
ジョブ実行スクリプトファイルの例
#! /bin/csh
set pe="512"
set PROG=“./a.out"
ジョブ実行ディレクトリにcd
する。変更しないこと。
cd $PBS_O_WORKDIR
scout -wait -g $NODE_GROUP -e scrun -nodes=${pe}x1,checkpoint $PROG
$NODE_GROUPは、制御ジョブに
より定義される。
2008/04/24
18
PACS-CSシンポジウム2008
Center for Computational Sciences, Univ. of Tsukuba
ジョブ実行、モニタリング、打ち切り
$ cpsub -f sample.cfg
Your job will be assigned [PU512S3]
put_0002 file list check [OK]
3302.ccshfr1
$ cpstat -a
ccshfr1:
Job ID
--------------3302.ccshfr1
ccshcms-op2:
Job ID
--------------3303.ccshfr1
Username Queue
Jobname
SessID
-------- -------- ---------- -----hitachi2 batch
sample.jcl 16783
Username Queue
Jobname
SessID
-------- -------- ---------- -----hitachi2 q512sS3 IEO3302
2419
ジョブ構成定義ファイルを与
現在キューに積まれているジョ
え、ジョブ投入
ブと実行中のジョブを表示
Req'd Req'd
Elap
NDS TSK Memory Time S Time
--- --- ------ --- ---- R 00:00 [ q512sS3]
Req'd Req'd
Elap
NDS TSK Memory Time S Time
投入済み(実行中)ジョブを
----- ------ -1 --- 00:30 R 00:00
キャンセル
$ cpdel –k 3302.ccshfr1
2008/04/24
19
PACS-CSシンポジウム2008
Center for Computational Sciences, Univ. of Tsukuba
数値計算ライブラリ
• 数値演算ライブラリとして、Intel Cluster MKLが利用可能
•Linux 対応の SCALAPACK (スケーラブル LAPACK)
•線形代数(BLAS, LAPACK, DSS)
•離散フーリエ変換(DFT)
•PARDISO直接法スパースソルバ
•ベクトル・マス・ライブラリ(VML)
•ベクトル・スタティスティカル・ライブラリ(VSL)乱数ジェネレータ
2008/04/24
20
PACS-CSシンポジウム2008
Center for Computational Sciences, Univ. of Tsukuba
システム運用と保守
„
学際共同利用プログラムを半年単位で実施
„
„
各プロジェクトグループにパーティション(キュー)を割り当て
プロジェクトの進行状況と budget(割り当てCPU時間)に応じて戦略的に運用
する場合がある
„
„
„
„
大規模パーティション運用
特に特定時期に計算を加速する必要がある場合
共用キュー上のジョブに対し「グループ間公平スケジューリング」が
行われる
毎月1回のシステム定期保守
„
„
原則として毎月最終月曜日
システム予防保守による安定稼動
2008/04/24
21
PACS-CSシンポジウム2008
Center for Computational Sciences, Univ. of Tsukuba
運用開始からのシステム稼動状況
PACS-CS システム稼働率 (2006年7月~2008年3月)
100.0
100.0
90.0
90.0
80.0
80.0
70.0
70.0
60.0
60.0
50.0
50.0
40.0
40.0
30.0
30.0
20.0
20.0
10.0
10.0
0.0
0.0
7月
8月
9月
10月 11月 12月
1月
2月
3月
4月
稼働率A(%)
5月
6月
7月
8月
9月
10月 11月 12月
1月
2月
3月
稼働率B(%)
2008/04/24
22
PACS-CSシンポジウム2008
Center for Computational Sciences, Univ. of Tsukuba
H19年度の稼働率と故障状況
システム稼働率とハードウェア対応件数
(2007年3月~2008年2月)
100.0
12
90.0
10
80.0
70.0
8
60.0
50.0
6
40.0
4
30.0
20.0
2
10.0
0
0.0
3月
4月
5月
6月
7月
障害対応件数
8月
予防保守対応件数
9月
10月
稼働率A(%)
11月
12月
1月
2月
稼働率B(%)
2008/04/24
23
PACS-CSシンポジウム2008
Center for Computational Sciences, Univ. of Tsukuba
まとめ
„
„
„
„
„
PACS-CSはバンド幅重視の超並列クラスタ
大規模計算科学シミュレーションが対象
「PACS-CSだからこそ実行可能なジョブ」を!
大容量ファイルサーバを持つが全ノードから自由に参照で
きるわけではないため注意が必要
ジョブスクリプトをベースとしたバッチシステム
各プロジェクトに対するキュー割り当て(共用キューもあり)
を行い、場合によって戦略的にスケジュール
2008/04/24
24
PACS-CSシンポジウム2008
Center for Computational Sciences, Univ. of Tsukuba
Fly UP