SDPA-C の実装だが、入力行列のデータ構造を大きく変えた方が良さそうである。
SDPA の場合には、入力行列を列単位で計算することがないので特に問題ないが、SDPA-C の場合はボトルネックである Schur 補完行列の計算をするときに入力行列を列単位でアクセスする必要がある。
ここで問題なのが、メモリを多く取って高速化するか、あるいは計算時間は多少遅くなってもメモリを節約するか、である。
今回は、メモリ消費量を多くしても高速化する方向で行こうかと考えてもいる。
今日の作業内容:データ構造検討 2h
今日のランチ:らく 鶏の照り焼き定食
明日の予測作業時間:4h
0 件のコメント:
コメントを投稿