多視点画像からの自由視点映像生成技術の動向

H. Saito, "Recent Advance of Free-view Movie Generation from Multiple View Images", IEEJ Transactions on Electoronics, Information and Systems, Vol.121, No.10, pp.1493-1499, 2001.

1. カメラ切り替えによる映像効果

　EyeVision では， 30 台のカメラがフットボールフィールドを取り囲むように取り付けられた．そして，これらのカメラで同時に撮影された映像から，カメラを連続的に切り替えることにより，あたかもカメラがフットボールフィールドを動き回っているかのような映像効果を実現した．ここで重要だったのは全カメラのパン・チルト動作の同期コントロールである．任意の 1 台をマスターカメラとして，そのカメラを用いて対象の選手が中央に撮影されるようにコントロールすると，残りのカメラはマスターカメラに同期して動く．原理的には，マスターカメラの向きにより定まる直線と選手が存在する平面との交点から選手の大よその 3 次元位置が決定されることを利用して，常に全てのカメラが選手を中央に捕らえているようにコントロールするわけである．

2. 自由視点映像の生成によるカメラの仮想移動

2.1. 対象の 3 次元モデリング

　CMU（Carnegie Mellon University）では，マルチベースラインステレオ法によるステレオ視差復元を多数のカメラに拡張して，対象の全周囲からの 3 次元復元を行い，カメラを仮想的に自由に動かした映像を生成する手法を提案し，この考え方を仮想化現実（Virtualized Reality）と名づけた． CMU で開発された “3D Room” *1は，動きのあるイベントの 3 次元情報をコンピュータ内にデジタル化して取り込むためのシステムである．

上図の 3D Room により撮影された多視点動画像列から対象の 3 次元構造を再構築するために CMU が採用した手法は，マルチベースラインステレオ法 *2を用いて各カメラ毎に求めた距離画像を体積空間で融合し，3 次元モデルを構築する手法を用いるというものである．

2.2. レンダリング

　構築された 3 次元モデルを用いて，任意視点の画像をレンダリングする手法には以下に述べる 2 つのアプローチが考えられる．一つは，再構築された3次元モデルの各三角メッシュ上に画像からテクスチャを割り当て，任意視点からテクスチャマッピングによりレンダリングする手法（モデルベースド法）*3である．もう一つは，合成しようとする視点付近の 2 枚，もしくは 3 枚の入力画像を選び，これらの入力画像間の対応関係を復元された3次元モデルから求め，この対応関係にもとづいて見かけ上の中間画像を合成する手法（アピアランスベースド法）*4である．

　前者では，三角メッシュを各画像面に投影し，投影された三角領域内のテクスチャを三角メッシュのテクスチャとして割り当てる．このとき，同じ三角メッシュを見るカメラは複数あるため，複数のカメラ間でテクスチャを平均する．この手法の場合，推定した 3 次元モデルに誤差があると，複数のカメラに投影された三角領域のテクスチャに位置ずれが生じる．このため，入力画像を撮影したカメラと同じ位置で任意視点の合成を行ったとしても，画質が劣るという問題がある．

f:id:actiom:20170223122406p:plain

　一方，後者の手法では，まず再構築した 3 次元モデルから画像間の対応点を下図のようにして求める．ここで，対応点を持つ各点について，視差ベクトルが，例えば点 $a$ については， $a$ から $a'$ への $\textbf{d}_a$ のように定義できる．この視差ベクトルがオクルージョンにより片方の画像には投影されるがもう一方には投影されないといった場合については，擬似的な視差ベクトルとして定義することにする．このような対応関係を，疑似対応（pseudo correspondence）と呼ぶ．一方，両者の画像に投影され視差ベクトルが定義できるものについては，無矛盾対応（consistent occlusion）と呼ぶ．このような視差ベクトルを用いれば，視差ベクトル上の中間の位置に画素値をマッピングすることにより，画像間の中間の視点の画像（部分中間画像）を合成できる．そして，各画像について合成された画像をさらに合成して，中間画像を生成する．また，この際には，任意視点は選択したカメラ間の合成比率（重み）として与えるため，入力画像と同じ視点の画像を合成しようとする場合は，同じ視点の入力画像の重みが 1 となり，それ以外は 0 となることから，合成される画像は入力画像と全く同じ画質のものが得られる．下図に，同一時刻において 2 つのカメラにより撮影された入力画像より生成した中間画像の例を示す．

f:id:actiom:20170223170439p:plain

2.3. その他のモデリング・レンダリング手法

前節に紹介したアピアランスベースド法は，広くは，イメージベースドレンダリング（IBR）と呼ばれる手法に相当する．この手法は，明示的な 3 次元復元を行わずに画像に基づき任意視点画像を合成しようという，近年注目されている手法である．この IBR による新しい画像合成の関連研究では，Katayama et. al. が，視点を密に変化させて得られる画像列から，任意の視点の画像が合成できることを示した *5．Levoy and Hanrahan *6と Gortler et al. *7は，このコンセプトを拡張し，3 次元空間における任意の光線を表す直線が 4 つのパラメータで表されることに着目し，視点の異なる大量の入力画像から 4 次元の光線空間を構築し，この光線空間において任意視点の各画素に対応する光線の色を推定するという新しい枠組みを提案した．このような手法の問題点は，視点の異なる画像を非常に多く必要とすることであるため，動きのあるイベントに適用することは，非常に多くのカメラを必要としてしまうため適用が困難となることである．

　さて，入力された視点の異なる画像から任意視点画像を合成するための手法として，view interpolation *8 *9と呼ばれる任意視点画像合成法がある．この手法は，複数の入力画像間の対応関係からその中間の画像を補間により合成するものである．view morphing *10は，image morphing *11の拡張であり，ここでは，カメラ間の幾何学的位置関係を正確に扱うことができるようなアルゴリズムが提案されている．先に紹介したアピアランスベースド法による任意視点画像生成法も，この画像の対応関係に基づくものであるが，画像間の対応関係を，多視点画像から再構築した 3 次元モデルから与えることにより画像生成の自動化を実現している．

2.4. 多視点画像のカメラキャリブレーション

多数のカメラを利用して 3 次元復元を行おうとする場合，各カメラのカメラキャリブレーションの精度が，3 次元復元の精度に大きく影響する．このカメラキャリブレーション法として広く利用されているのが，Tsai により提案されたカメラモデルとキャリブレーション法 *12である．この手法により，6 自由度のカメラ外部パラメータと，焦点距離，画素のアスペクト比，光軸の画像平面上の 2 次元座標，そしてレンズのラディアル歪の第一次パラメータの合計 5 つのカメラ内部パラメータを推定する．この推定には，あらかじめ対象空間内に 3 次元位置既知の点を複数与え，これがカメラに投影される位置を検出する必要がある．

　多数カメラのシステムにおいては，複数のカメラ間で共通に見える点を検出して，三角測量の原理により 3 次元構造を復元するものであるため，カメラ間の相対的幾何学関係であるエピポーラ幾何をできるだけ正確に扱うことが重要となる．また一方で，多数のカメラに対して同時に 3 次元位置の既知なマーカを撮影させてキャリブレーションする手間も大きな問題であった．そこで，Saito et. al. は，カメラ間の相対的幾何学的関係を明示的に表現し，かつ 3 次元位置の未知な幾つかの特徴点の対応関係情報のみから推定できるエピポーラ幾何に基づいて多数カメラから 3 次元復元を行う手法として，この多数のカメラ間のエピポーラ幾何から“射影グリッド空間”を構成し，この射影グリッド空間において 3 次元復元する枠組を提案した *13 *14．一般に，カメラ毎に 3 次元空間とカメラの画像座標とを関連づけるための射影変換行列をカメラ毎に推定する必要がある．これに対し，Saito et. al. の提案した“射影グリッド空間”では，このグリッド空間と画像乗の点との関係を，カメラ間のエピポーラ幾何を表す Fundamental 行列（F行列）のみを用いて記述することができるため，カメラ毎に 3 次元空間との射影変換行列を復元することなしに，多数のカメラからの 3 次元復元を行うことが可能になる．この手法を利用することにより，カメラの位置関係が未知，つまりカメラキャリブレーションが行われていない多視点画像に対して，10 点程度の 3 次元位置の未知な特徴点の対応関係から F 行列を求め，この F 行列から射影グリッド空間を構成し，対象物体の 3 次元復元を行うことが可能となる．

*1:T. Kanade, H. Saito, S. Vedula, "The 3D Room: Digitizing Time-Varying 3D Events by Synchronized Multiple Video Streams", CMU-RI-TR-98-34, 1998.

*2:M. Okutomi, T. Kanade, "A Multiple-Baseline Stereo", IEEE Trans. on PATTERN ANALYSIS AND MACHINE INTELLIGENCE, Vol.15, No.4, pp.353-363, 1993.

*3:S. Vedula, P. W. Rander, H. Saito, T. Kanade, "Modeling, Combining, and Rendering Dynamic Real-World Events From Image Sequences", Proc. 4th Conf. Virtual Systems and Multimedia, Vol.1, pp.326-322, 1998.

*4:H. Saito, S. Baba, M. Kimura, S. Vedula, T.Kanade, "Apperance - Baced Virtual View Generation of Temporally-Varying Events from Multi-Camera Images in 3D Room", Second International Conference on 3-D Digital Imaging and Modeling (3DIM99), October 4-8, pp.516-525, 1999.

*5:A. Katayama, K. Tanaka, T. Oshino, H. Tamura, "A view point dependent stereoscopic display using interpolation of multi-viewpoint images", SPIE Proc. Vol.2409, Stereo scopic Displays and Virtual Reality Systems II, pp.11-20, 1995.

*6:M. Levoy, P. Hanrahan, "Light Field Rendering", Proc.SIGGRAPH'96, 1996.

*7:S. J. Gortler, R. Grzeszczuk, R. Szeliski, M. F. Cohen, "The Lumigraph", Proc. SIGGRAPH '96, 1996.

*8:S. Chen, L. Williams, "View Interpolation for Image Synthesis",Proc. SIGGRAPH'93, pp.279-288, 1993.

*9:T. Werner, R. D. Hersch, V. Hlavac, "Rendering RealWorld Objects Using View Interpolation", In IEEE Int'l Conference on Computer Vision: ICCV95, pp.957-962, 1995.

*10:S. M. Seitz, C. R. Dyer, "View Morphing", Proc.SIGGRAPH '96, pp.21-30, 1996.

*11:T. Beier, S. Neely, "Feature-Based Image Metamorphosis", Proc. SIGGRAPH '92, pp.35-42, 1992.

*12:R. Tsai, "A Versatile Camera Caribration Technique for High- Accuracy 3D Machine Vision Metrology Using Off-theShelf Tv Cameras and Lenses", IEEE Journal of Robotics and Auto mation RA-3, 4, pp.323-344, 1987.

*13:H. Saito, T. Kanade, "Shape Reconstruction in Projective Grid Space from Large Number of Images", IEEE Proc. Computer Vision and Pattern Recognition, Vol.2, pp.49-54, 1999.

*14:矢口悟志, 木村誠, 斎藤英雄, 金出武雄, "未校正多視点カメラシステムを用いた任意視点画像生成", 情報処理学会論文誌:コンビュータビジョンとイメージメディア, Vol.42, No, SIG 6 (CVIM). pp.9-21, 2001.