微妙な連載と言うことで今回はDCTをプログラム化してみるところからです。
なんか検索でLLMで検索するとこのブログが表示されやすいという現実からちょっとやってみようと思います。
といっても、ちゃんとした資料は別の場所にあるはずですのでそれを参考に。突っ込みどころはいろいろあると思います。
DCTの基本式
画像変換では正変換にDCT-IIを使うことが多いようです。原理式は以下の通りです。
行列展開する
画像変換なので、8×8でブロックを作ることにしてこの式をN=8として行列展開してみます。のように係数を設定します。
このとき、係数がすべてcosであることと、この係数での設定によってとなることに注意します。
変換行列をのように設定すると、変換行列は以下のようになります。
更に行列を展開して
と変換するとこまでが作業になります。これについてはAP-922などの資料を参考にしてください。
なお、逆変換についてはDCT-IIIを考える必要はありません。行列の形にしたので逆変換=逆行列の乗算になります。
逆行列については、DCT変換は直交変換であることから、直交変換の逆行列は行列を転置させたものになるので
で求められます。
行列の係数について
アルゴリズムを確認した後で正しいかどうか検算するときに面倒になるのが行列の係数についてです。
特にDCTの場合、係数がすべてcosによって作られているのでそれぞれの係数の加減算が生じたときに別の値になる、という現象も起こります。
次回の演算で出てくる計算の一種ですが、LLMのバタフライ演算を行うと、ある行の演算結果は以下の形になります。
このままだと処理できませんが、cosの和・差を積に直す公式を使うと
と見事に別の係数へと変換され、これを繰り返すと
というきれいな数に変換される、というものです。この辺は三角関数を使ったときの特有だと思いますのでよく覚えておきましょう。
原理式については以上です。次回はこれをLLMアルゴリズムで実際にプログラムとして組んでみたときの状態をやってみます。
この後は変換行列が展開されているものとして話が進みますので先にその行列を確認しておいてくださいね。この先やっても大丈夫ですよね・・・?
展開した行列を書いていないのはtex記法がとっても面倒だったという理由だったりします。