射影幾何に基づく多視点カメラの中間視点映像生成

斎藤英雄, 木村誠, 矢口悟志, 稲本奈穂, "射影幾何に基づく多視点カメラの中間視点映像生成", Vol.43, No.SIG 11(CVIM 5), pp.21-32, 2002.

1. 目的

多視点カメラを用いて撮影した対象空間を任意視点から観察可能なシステムの開発．

2. 提案手法

2.1 射影グリッド空間での 3 次元復元に基づく中間視点画像生成

本論文では，多視点カメラシステムにおいて，強校正を使わずに弱校正のみを行うことにより得られるカメラ間の射影的関係を表す基礎行列（F 行列）を利用し，多視点画像に撮影された対象空間の 3 次元的幾何情報を射影的に推定することによって，多視点画像間の画素ごとに対応関係を求め，この対応関係を用いて，実カメラ視点の中間の視点における画像を生成するための以下の2 つの手法について述べている．

2.1.1 射影グリッド空間における 3 次元形状復元

弱校正された多数のカメラの中から選択された 2 台の基底カメラを用いて対象空間に射影グリッド空間と名付けられたグリッド座標を設定し，射影グリッド空間内で対象の 3 次元形状を視体積交差法を利用して復元する．

2.1.2 中間視点画像生成

つぎに，復元された 3 次元モデルから中間視点画像を生成する．この 3 次元モデルは，射影変換の曖昧性を含んだ 3 次元形状であり，真の形状を表していないが，実カメラ画像間の画素ごとの対応関係や 3 次元モデル上の各点の実カメラに対する前後関係・射影関係は求めることができる．そこで，射影グリッド空間において復元された 3 次元モデルの各点が，実カメラに見えるのかどうかの可視判定を行い，その関係から，入力画像間の画素ごとの対応関係が与えられれば，モーフィング手法 *1を視点内挿 *2に利用することにより，入力画像間の中間視点画像を生成することができる．下図に，対象空間を取り囲むように配置された 18 台のカメラを用いて撮影された多視点画像列のあるフレームについて，提案手法により中間視点画像を生成した例を示す．この図の 3 角形の頂点が合成を用いた実カメラ画像である．

f:id:actiom:20170306141813p:plain

2.1.3 複数対象空間の統合

サッカーフィールド等のように広大な空間を対象空間とするとき，個々のカメラがフィールド全域をとらえていると，フィールドに存在する選手等が画面に占める割合が相対的に小さくなってしまい，選手等の物体に対する画像の解像度が不足することになる．そこで，対象空間を複数の小空間（セル）に分割し，セルごとに 3 次元モデルを構築し，統合することによって全体の 3 次元モデルを構築し，中間視点画像を生成する．ここでは，対象空間全体が画角に収まるような 2 台のカメラを基底カメラとして，複数のセルに共通の射影グリッド空間の座標系を設定する．したがって，基底カメラが共通であれば，射影グリッド空間内の 3 次元モデルはすべてのカメラ画像に投影することができることから，複数のセルで作成した 3 次元モデルを統合し，前述の中間視点画像生成の枠組みを用いることができる．

2.2 サッカー映像の中間視点映像生成

本手法では，サッカースタジアムの観客席等の適当な位置に固定した数台のカメラで撮影した映像を入力とする．まず始めに，入力映像から適当なフレームを選び，そこから自然特徴点を手入力により抽出することにより F 行列を算出する．しかし，射影グリッド空間を設定したとしても，対象空間を全周囲から取り囲むようなカメラ配置で撮影されていなければ視体積交差法を適用した 3 次元形状復元は困難である．ここでは，対象空間を全周囲から取り囲まない多視点画像からでも，隣接するカメラ間の射影幾何学的関係を利用して中間視点画像を生成する手法について述べる．本手法では，移動領域（選手とボール）と，それら以外の静止領域に分け，領域ごとに隣接するカメラ間で画素ごとに対応点を決定し，2.1.2 節と同様に中間視点画像を生成し，最後にこれらの領域を合成する．

2.2.1 静止領域

対象空間がサッカースタジアムであることを利用して，いくつかの平面領域に分割できるものと近似する．平面に近似された各領域に対して，隣接するカメラ間の平面射影行列（Homography）を用いて画素ごとに対応点を決定し，中間視点画像を生成する．この平面射影行列は，対応する領域内で数点の対応点を手入力により検出することにより算出する．

2.2.2 移動領域

入力された多視点映像から，背景差分によって移動領域（選手とボール）を検出する．そして，検出された移動領域をカメラ間での対応付けを行う．この対応付けには，選手の足元がグラウンドに接しているという前提を利用して，領域の最下部の点の座標が，グラウンド面の平面射影行列により関連付けられることを用いる．つぎに，隣接するカメラ間で対応付けられた移動領域内部について，密な対応点関係を求める．移動領域の上部から下部にかけてエピポーラ線を順に投影していき，隣接するカメラ間の各エピポーラ線と移動領域の両端との交点に対し対応付けを行う．そして，この対応関係を用いて中間視点画像を生成する．

3. まとめ

本論文では，実カメラ視点の中間の視点における画像を生成するための 2 つの手法について述べられている．一つは，射影グリッド空間において，視体積交差法を用いて対象空間の 3 次元復元を行い，復元された 3 次元モデルから実カメラ視点の中間視点画像を生成する方法を示している．もう一つは，視体積交差法を利用した 3 次元復元が困難となるシーンを撮影した多視点画像を用いた中間視点画像生成を行うために，移動領域と静止領域を分割し，それぞれの射影幾何学的性質に基づいて中間視点画像を生成し，それらを合成する手法を示している．

本論文では，中間視点画像の仮想視点が，2 ないし 3 つの参照画像の視点を指定した重みで内分した位置になると仮定している．しかし，参照画像を撮影したカメラの位置関係によっては，中間視点画像の見え方に大きな歪みを発生させる可能性がある．また，本論文では，視点の内挿に 2 台か 3 台のカメラを用いる手法について述べた．この場合，内挿した中間視点が移動できる範囲は限定される．

4. 用語説明

・強校正

対象空間のユークリッド座標系とカメラ座標系の射影関係の推定による校正のこと．強校正を行うには，空間上の数点に対し，ワールド座標系における 3 次元座標と画像座標系における 2 次元座標を正確に測定し計算する方法が一般的である．

・弱校正

カメラ間の射影幾何学的関係の推定による校正のこと．各カメラに共通して見えるマーカ点から検出したカメラ間の対応関係から，カメラ間の射影幾何学的関係を F 行列として得られる．この F 行列の推定に利用する対応関係は，3 次元点の未知ないくつかの自然特徴点を検出することによって得られるため，強校正に必要な3 次元座標の既知な人工的マーカを対象空間に配置する必要がなく，労力を格段に削減することができる．

・射影グリッド空間

数台あるカメラシステムのうちの任意の 2 台を基底カメラ 1，2 とする．下図に示すように，この 2 台のカメラそれぞれの視点からの中心射影によって 3 次元空間を定義する．つまり，空間を定義する 3 軸として，基底カメラ 1 の画像の X 軸，Y 軸，そして基底カメラ 2 の画像の X 軸を用いるわけである．そして，これらの 3 軸を各 P，Q，R 軸として，射影グリッド空間を定める．

f:id:actiom:20170306132535p:plain

これによって，下図（A）のようにカメラ配置とは無関係にユークリッド座標系を考えるのではなく，下図（B）のように任意に配置された多視点カメラ間の関係を示す F 行列によって，各カメラと対象の 3 次元空間を関連付けることができる．

f:id:actiom:20170306132601p:plain

・視体積交差法

各視点の画像から対象物体のシルエットを抽出し，このシルエットにより決定される視体積を共通の 3 次元空間で交差させ，その共通部分である Visual Hull *3を対象形状として復元するものである．この手法は対象空間を全周囲から取り囲むようなカメラ配置で撮影されている必要がある．

*1:T. Beier, S. Neely, "Feature-Based Image Metamorphosis", Proc. SIGGRAPH'92, pp.35-42, 1992.

*2:S. Chen, L. Williams, "View Interpolation for Image Synthesis", Proc. SIGGRAPH'93, pp.279-288, 1993.

*3:A. Laurentini, "The Visual Hull Concept for Silhouette Based Image Understanding", IEEE Trans. Pattern Analysis and Machine Intelligence, Vol.16, No.2, pp.150-162, 1994.