SIMDで整数除算

SIMDで整数除算
@Shobomaru

更新履歴

• 2012/11/01 v1.0
Slideshareのテストも兼ねて試験的に公開

（´・ω・`）Shobomaru 2

2011年12月下旬くらいの出来事

( ^o^) SIMDで遊ぼう！

( ˘⊖˘) 。o( 待てよ？浮動小数点数の除算はrcpss命令だけど、整数の除算は？ )

| In●el |┗(☋｀ )┓三

( ◠‿◠ )☛ そこに気づいたか・・・消えてもらう

▂▅▇█▓▒░(’ω’)░▒▓█▇▅▂うわああああああ


詰んだ？

• 詰んだ。終了。解散。

• …ただし、除数が固定かつ16bit以下なら
まだ希望がある


おさらい・浮動小数点数の除算

• 直接除算する方法
– __m128 _mm_div_ps( __m128 a, __m128 b );
• DIVPS xmm1, xmm2 (SSE1)
• 遅い代わりに精度が高い
– スループットは1/20、遅すぎ

• 逆数を求めて乗算にする方法
– __m128 _mm_rcp_ps( __m128 a );
• RCPPS xmm1, xmm2 (SSE1)
• 速い代わりに精度が低い
– その後乗算も必要


おさらい・逆数による除算から乗算への変換

• 例：“8.0÷5.0=1.6”
– ＝ 8.0×（1.0÷5.0）
– ＝ 8.0×0.2 // ←この“0.2”を求めるのが逆数命令
– ＝ 1.6


整数の除算

• 除算命令
– ない…
• 逆数命令
– ない…
• 右シフト命令
– 2の冪乗でしか使えない

• ⇒ なんとか自分で逆数を求めるしかない
– でも逆数は1以下なので、整数では表現できない…


整数を固定小数として扱う

• 最上位ビット(MSB)が0.5、MSBの隣が0.25、
その隣が0.125…
• 例：“0.2”
– = 0.125 + 0.0625 + 0.00078125 + 0.000390625 + …
– 2進数表現では（とりえず16bitで）
“0.0011001100110011”
– 小数点以下を固定小数として取り出す
“13037”
– 固定小数なので、2^16である“65536”が1を表す
• 13037÷65536＝0.199996948242188≒0.2


固定小数の掛け算

• 例：“8÷5”
– = 8×13037÷65536
• この除算は16bit論理右シフトで代用可能
“(8*13037) >> 16”
– = 1.5999755859375
– 整数でキャストして答えは“1”
_,,-―＝'''￣＿＿＿,,-―――＝''￣＿_,-―＝''￣ /
＿,,-―＝'''￣＿,,-―＝''￣ヽ／ +
￣￣＿,,-―＝'''￣＼／ . . . .
,,-＝''￣＿ノ ,＿ノヽ／ . 。. ★ ☆
,,,-'' / iﾆ)ヽ, /rj:ヽヽヽ／。. .
-―''￣ ;〈 !:::::::c! |＿＿＿,/' {.::::::;､! } | -┼- 丿~~~| |~~~~~| ＿＿ ■
. |. (つ`''" | / `'ｰ''(つ. |. -┼- /~~~~/ 丿 | 丿 ▼ ▼
| . ///// | / /// | | 丿／丿 ● ●
ヽ γ´~⌒ヽ. | / /
――ヽ / ヽ | / /⌒ヽ、
＼/ | |_/ ／ヽ


精度の問題

• この方法で“10÷5”を計算すると…
– 10×13037÷65536
– = 1.99996948242188
– 整数でキャストして“1”…？？？
,,-―＝'''￣＿＿＿,,-―――＝''￣＿_,-―＝''￣ /
＿,,-―＝'''￣＿,,-―＝''￣ヽ／ +
￣￣＿,,-―＝'''￣＼／ . . . .
,,-＝''￣＿ノ ,＿ノヽ／ . 。. ★ ☆
,,,-'' / iﾆ)ヽ, /rj:ヽヽヽ／。. .
-―''￣ ;〈 !:::::::c! ' {.::::::;､! 〉 | ￣￣| ＿|＿丿 |~~~~~|
. | (つ`''" ＿＿ `'ｰ''(つ | | ｜／|. 丿 | 丿
| ///// | | /// | ＿＿| 丿 | ／丿
ヽ γ´~⌒ヽ. / | /
――ヽ / ヽ / | /⌒ヽ、
＼/ | |￣￣￣￣| ／ヽ

• なぜ？
– 逆数の丸め誤差を考慮していないから

Terje Mathisenのアルゴリズム(?) [1]

• 逆数の小数点の位置をできるだけ右にずらす
– 代償として、乗算後の論理右シフトの量を調整する

xを割られる数、dを割る数とするとき、
b = (有効ビット数) – 1
r=w+b
f = 2r / d
もしfが整数ならば、case Aへ
もしfの小数部が0.5未満ならば、case Bへ
もしfの小数部が0.5を超えるならば、case Cへ
case A: result = x SHR b
case B: result = ( ( x + 1 ) * f ) SHR r
ただし、fは切り捨て
case C: result = ( x * f ) SHR r
ただし、fは切り上げ
SHRは論理右シフトのこと


C言語のプログラム(1)
引数意味

int short_rcp( div 割る数
unsigned short div, rcp 逆数
unsigned short *rcp,
int *shift, shift 論理右シフト量
unsigned short *bias ) bias 補正
{
int b = 0; 戻り値 divが2の冪乗か否か
for( int i = 0; i < 16; i++ ) {
if( ( ( div >> ( 15 - i ) ) & 0x1 ) == 1 ) {
b = 15 - i;
break;
}
}

unsigned int r = 16 + b;
unsigned int r2 = 1 << r;
double f = (double)r2 / div;
double fm = fmod( f, 1.0 );


if( fm == 0.0 )
{
*shift = b;
*rcp = 1;
*bias = 0;
return 1;
}
else if( fm < 0.5 )
{
*shift = b;
*rcp = (unsigned short)f;
*bias = 1;
return 0;
}
else
{
*shift = b;
*rcp = (unsigned short)( f + 0.5 );
*bias = 0;
return 0;
}
} （´・ω・`）Shobomaru 13

const unsigned short dividend = 10;
const unsigned short divisor = 5;
unsigned short rcp;
int shift;
unsigned short bias;

int ans;
int pow2 = short_rcp( divisor, &rcp, &shift, &bias );
if( pow2 ) ans = dividend >> shift;
else ans = ( ( dividend + bias ) * rcp ) >> ( shift + 16 );

• ansは期待通り”2”
• 割られる数が32769以上のとき、不正な解を出す
– C言語の整数拡張ルールの関係で、乗算が符号付きに
なってしまう
– 楽しいアセンブラプログラミングが待ち受ける


逆数求めるの面倒すぎじゃね？

• だから言っただろう、
「ただし、除数が固定なら」と。
– 面倒な計算も初回だけなら我慢できる

• 除数が固定なら、変数pow2も不変なので、
条件分岐のコストは考えなくてよい
– Branch Target Bufferのない糞CPUなんぞ知らん

• 整数拡張もSSEなら自分で操作できる
– アセンブラいらない！


SSE2を使ったプログラム
__m128i mdivident;
__m128i mrcp = _mm_set1_epi16( rcp );
__m128i mbias = _mm_set1_epi16( bias );
__m128i mans;

mdivident = _mm_load_si128( [メモリアドレス] );
if( pow2 ) mans = _mm_srli_epi16( mdibident, shift );
else mans = _mm_srli_epi16( _mm_mulhi_epu16(
_mm_add_epi16( mdivident, mbias ), mrcp ), shift );

• _mm_mulhi_epi16 ()は乗算後の上位ビットを返す
– 上位型への拡張は要らない
– 【悲報】上位ビットを返す乗算は、符号つきorなしの
16bit整数しかない
• 8bitなら16bitにunpack、32bitは終了


割る数がUSHORT_MAXのときの問題

• biasが1、divisorが65535のとき、直後の加算で
整数オーバーフローによって不正な解になる

• どうしようもないので、
分岐してスカラで計算するか、
型昇格するかで回避するしかない
– できたらUSHORT_MAXが来ないようにする


実は賢いコンパイラ

• 実は、C言語で定数の除算式を書くと
勝手に乗算＋論理右シフトにしてくれる
– 割る数が2の冪乗なら右シフトだけ

volatile unsigned int dividend = 8;
unsigned int ans = dividend / 5;

mov ecx, ***
mov eax, 0CCCCCCDh
mul eax, ecx
shr edx, 2

(Visual C++ 10.0 / Release)


BSR命令を使った最適化(2)

• 実は、有効ビット数の計算はx86専用命令がある
• BSR命令
– ただし、0（立っているビットがない）は未定義値
• 除算なので、そもそも逆数に0が入ってくる時点でおかしい
– assert()なりthrowなり自分で例外処理する
• 0が未定義でないLZCNT命令もあるが、AMD専用(SSE4a)
– イントリンシック命令
• _BitScanReverse() (Visual C++) ※intrin.hをinclude
• _bit_scan_reverse() (Intel C++ Compiler)
• __builtin_clz() (GNU gcc)
– ARMとかMIPSとかでも使える
– xor 16を取る必要あり？（要確認）


BSR命令を使った最適化(2)
unsigned long bl;
_BitScanReverse( &bl, div );

//int b = 16;
//for( int i = 0; i < 16; i++ ) {
// if( ( ( div >> ( 15 - i ) ) & 0x1 ) == 1 ) {
// b = 15 - i;
// break;
// }
//}
int b = bl;

• といっても逆数を求める部分なので、
効果はほとんどない


_mm_set1_epi16()

• 実は複数の命令に変換されてしまう
– mov + punpcklwd + pshufd

• SSSE3なら_mm_shuffle_pi8()、
AVX1なら_mm_broadcastw_epi16()
でpunpcklwdは不要になる
– movは消せないけど、IvyBridgeからmovはリネームス
テージで消滅するらしいから、多分気にしないでいい
• AMD？なにそれおいしいの？


ベンチマーク

• …良く考えたら整数除算する機会ってなくね？

• てなわけで飽きました(:P


テーブル参照

• 除数固定、入力値の範囲が大きくなければ、
SSEの代わりに除算結果のテーブルを
作ってしまうのもアリ
– テーブル参照なので、SSEは使えない


問題点

• SSE/AVXの乗算は16/32bit型だけ
– 8bit型はpack/unpackで16bitに変換する必要あり

• 符号つき整数は一工夫必要
– 乗算を符号付き、シフトを算術シフトにすればいい？
• 試すのマンドクセ(‘A`)


ARM NEONでは…

• NEONも整数の除算はない
• 乗算はある
– VQDMULH命令
• ただし、符号つき16/32bitのみ…
– VMULL命令
• 符号なし8/16/32bit、後で自分で上位ビットを取り出す
• なぜか整数の逆数命令もある
– VRECPE/VRECPS命令
• 符号なし32bit（と32bit小数）
– 精度とかはよく知らない
• Newton-Raphson法が必要？試すのマンドクセ(‘A`)


まとめ

• SSEに整数の除算命令はない

• なんとか逆数を作ることで、
乗算を使って除算の代用が可能

• それでも制約がいっぱい
– 早く整数除算命令を作ってくれ


参考文献

1. Optimizing subroutines in assembly language
http://www.agner.org/optimize/optimizing_assem
bly.pdf

• というか、ほぼパクリです。すみません。


ライセンス

• このスライドは全て、
「クリエイティブ・コモンズ表示 2.1」
の下で提供しています
（ただし引用した図・文字を除く）


SIMDで整数除算

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (20)

Similar to SIMDで整数除算

Similar to SIMDで整数除算 (12)

Recently uploaded

Recently uploaded (14)

SIMDで整数除算