知識ベース

ジェスチャー認識

ジェスチャ認識は、数学的アルゴリズムを介して人間のジェスチャを解釈することを目的とした、コンピュータサイエンスと言語技術のトピックです。ジェスチャは、あらゆる身体の動きや状態から発生する可能性がありますが、通常は顔や手から発生します。現在の分野の焦点には、顔からの感情認識や手ジェスチャーの認識が含まれます。ユーザーは、簡単なジェスチャーを使用して、物理的にデバイスに触れることなくデバイスを制御または操作できます。カメラとコンピュータービジョンアルゴリズムを使用して手話を解釈する多くのアプローチが行われています。ただし、姿勢、歩行、プロキシミクス、および人間の行動の識別と認識も、ジェスチャー認識技術の対象です。ジェスチャー認識は、コンピューターが人間の身体言語を理解し始める方法と見なすことができるため、キーボードとの入力の大部分を制限するプリミティブテキストユーザーインターフェイスやGUI(グラフィカルユーザーインターフェイス)よりも、マシンと人間の間に豊富なブリッジを構築できますマウスを使用し、機械的なデバイスなしで自然に対話します。ジェスチャ認識の概念を使用して、このポイントに指を向けることができます。これにより、そのようなデバイスでの従来の入力、さらには冗長化が可能になります。

概要

ジェスチャー認識機能:

  • より正確な
  • 高い安定性
  • デバイスのロックを解除する時間を節約

現在の シナリオ でのジェスチャー認識の主な適用分野 は次のとおりです。

  • 自動車部門
  • 家電部門
  • トランジットセクター
  • ゲーム部門
  • スマートフォンのロックを解除するには
  • 防衛
  • ホームオートメーション
  • 自動手話翻訳

ジェスチャー認識は、コンピュータービジョンと画像処理の技術を使用して実行できます。

文献には、コンピューターに接続されたカメラでジェスチャーまたはより一般的な人間のポーズと動きをキャプチャーするコンピュータービジョン分野で進行中の作業が含まれています。

ジェスチャ認識とペンコンピューティング:ペンコンピューティングは、システムのハードウェアへの影響を軽減し、キーボードやマウスなどの従来のデジタルオブジェクトを超えて制御に使用できる物理世界オブジェクトの範囲を広げます。このような実装により、モニターを必要としない新しい範囲のハードウェアが可能になります。このアイデアは、ホログラフィックディスプレイの作成につながる可能性があります。ジェスチャ認識という用語は、グラフィックタブレットでのインク入力、マルチタッチジェスチャ、マウスジェスチャ認識など、テキスト入力以外の手書き記号をより厳密に指すために使用されています。これは、ポインティングデバイスカーソルを使用したシンボルの描画によるコンピューターの対話です。 (ペンコンピューティングを参照)

ジェスチャーの種類

コンピューターインターフェイスでは、2種類のジェスチャが区別されます。オンラインジェスチャを検討します。これは、スケーリングや回転などの直接操作と見なすこともできます。対照的に、オフラインジェスチャは通常、対話が終了した後に処理されます。たとえば、コンテキストメニューをアクティブにするために円が描画されます。

  • オフラインジェスチャ:ユーザーがオブジェクトを操作した後に処理されるジェスチャ。例は、メニューをアクティブにするジェスチャです。
  • オンラインジェスチャ:直接操作ジェスチャ。それらは、有形のオブジェクトをスケーリングまたは回転するために使用されます。

タッチレスインターフェース

タッチレスユーザーインターフェイスは、ジェスチャ制御に関する新しいタイプのテクノロジーです。 タッチレスユーザーインターフェイス(TUI)は、キーボード、マウス、または画面に触れることなく、体の動きとジェスチャーを介してコンピューターに命令するプロセスです。たとえば、MicrosoftのKinectはタッチレスゲームインターフェイスです。ただし、Wiiなどの製品は、コントローラーに接続されているため、完全にタッチレスとは見なされません。ジェスチャーコントロールに加えて、タッチレスインターフェイスは、物理的にデバイスに触れることなくデバイスと対話する機能を提供するため、広く普及しています。

タッチレス技術の種類

スマートフォン、ラップトップ、ゲーム、テレビ、音楽機器など、このタイプのインターフェースを利用するデバイスが多数あります。

タッチレス技術の未来

ジェスチャ認識テクノロジを作成または調査している企業には、次のものがあります。

Intel Corp.

ホワイトペーパー:タッチレス多要素認証(MFA)が医療機関のセキュリティリスクを軽減し、臨床医の効率、利便性、患者のケアを改善する方法を示すインテルのユーザーエクスペリエンス調査をご覧ください。このタッチレスMFAソリューションは、2要素ユーザー認証のために顔認識とデバイス認識機能を組み合わせています。

米国マイクロソフト社

このプロジェクトの目的は、手術環境でのタッチレスインタラクションの使用を探求し、カメラベースのジェスチャ認識技術を使用して、非接触で画像を表示、制御、操作できるようにすることです。特に、このプロジェクトは、こうしたシステムの設計と展開に関するこれらの環境の課題を理解し、これらの技術が外科的実践を変える可能性のある方法を明確にしようとしています。ここでの主な懸念は無菌状態の維持にありますが、これらのタッチレスジェスチャベースの技術の使用は他の潜在的な用途を提供します。

他の例:

Tobii Rex:スウェーデンの視線追跡デバイス

エアライティング:メッセージやテキストを空中で書くことができる技術

eyeSight:デバイスに物理的に触れることなく画面を移動できます

Leap Motion:モーションセンサーデバイス

筋電アームバンド:Bluetoothデバイスの通信が可能

入力デバイス

人の動きを追跡し、実行しているジェスチャーを判断する機能は、さまざまなツールを使用して実現できます。キネティックユーザーインターフェイス(KUI)は、ユーザーがオブジェクトや体の動きを通じてコン​​ピューティングデバイスと対話できるようにする新しいタイプのユーザーインターフェイスです。 KUIの例には、有形のユーザーインターフェイス、WiiやMicrosoftのKinectなどのモーション対応ゲーム、およびその他のインタラクティブなプロジェクトが含まれます。

画像/ビデオベースのジェスチャ認識では多くの研究が行われていますが、実装間で使用されるツールと環境には多少のばらつきがあります。

  • 有線手袋。これらは、磁気または慣性追跡デバイスを使用して、手の位置と回転に関するコンピューターへの入力を提供できます。さらに、手袋によっては、指の曲がりを高精度(5〜10度)で検出したり、ユーザーに触覚フィードバックを提供したりすることもできます。これは、触覚のシミュレーションです。最初の市販のハンドトラッキンググローブ型デバイスは、手の位置、動き、および指の曲げを検出できるグローブ型デバイスであるDataGloveでした。これは、手の甲に沿って走る光ファイバーケーブルを使用します。光パルスが生成され、指が曲がると、小さなひび割れから光が漏れ、損失が記録され、手のポーズの近似値が得られます。
  • 深度認識カメラ。構造化されたライトや飛行時間カメラなどの特殊なカメラを使用して、カメラを通して見ているものの深度マップを短距離で生成し、このデータを使用して見ているものの3D表現を近似できます。これらは短距離機能のため、手のジェスチャーの検出に効果的です。
  • ステレオカメラ。相互の関係がわかっている2台のカメラを使用すると、カメラの出力によって3D表現を近似できます。カメラの関係を取得するには、レキシアンストライプや赤外線エミッターなどの位置決め基準を使用できます。直接運動測定(6D-Vision)と組み合わせて、ジェスチャーを直接検出できます。
  • ジェスチャーベースのコントローラー。これらのコントローラーは身体の延長として機能するため、ジェスチャーが実行されると、その動きの一部をソフトウェアで簡単にキャプチャできます。新たなジェスチャーベースのモーションキャプチャの例は、仮想現実および拡張現実アプリケーション用に開発されている骨格ハンドトラッキングによるものです。このテクノロジーの例は、uSensとGestigonの追跡会社によって示されており、ユーザーはコントローラーなしで周囲と対話できます。

これの別の例は、マウスの動きの追跡です。マウスの動きは、時間の経過に伴う加速度の変化を調べることができるWii Remote、Myoアームバンド、またはmForce Wizardリストバンドのように、人の手で描かれたシンボルに関連付けられますジェスチャーを表します。 LG Electronics Magic Wand、Loop、Scoopなどのデバイスは、Hillcrest LabsのFreespaceテクノロジーを使用します。これは、MEMS加速度計、ジャイロスコープ、その他のセンサーを使用して、ジェスチャーをカーソルの動きに変換します。このソフトウェアは、人間の振戦や不注意な動きも補正します。AudioCubesも別の例です。これらのスマート発光キューブのセンサーは、手や指だけでなく、近くの他のオブジェクトを感知するために使用でき、データを処理するために使用できます。ほとんどのアプリケーションは音楽とサウンドの合成に使用されますが、他の分野にも適用できます。

  • シングルカメラ 。標準の2Dカメラは、リソース/環境が他の形式の画像ベースの認識に都合が悪いジェスチャ認識に使用できます。以前は、単一のカメラはステレオカメラや深度認識カメラほど効果的ではないと考えられていましたが、一部の企業はこの理論に挑戦しています。堅牢な手のジェスチャーを検出できる標準の2Dカメラを使用したソフトウェアベースのジェスチャー認識テクノロジー。
  • レーダー Google I / O 2015で発表されたProject Soliを参照してください。13:30から、Google I / O 2015 –ちょっと悪い。綺麗な。技術と人間。仕事と愛。 ATAP。 -YouTube、および短い紹介ビデオ、Project Soliへようこそ– YouTube

アルゴリズム

入力データのタイプに応じて、ジェスチャを解釈する方法はさまざまな方法で実行できます。ただし、ほとんどの手法は、3D座標系で表されるキーポインターに依存しています。これらの相対的な動きに基づいて、入力の品質とアルゴリズムのアプローチに応じて、ジェスチャを高精度で検出できます。
身体の動きを解釈するために、共通の特性と動きが表現するメッセージに従ってそれらを分類する必要があります。たとえば、手話では、各ジェスチャーは単語またはフレーズを表します。人間とコンピュータの相互作用に非常に適切と思われる分類法は、「ビジョンベースのハンドジェスチャインターフェイスに向けて」でQuekによって提案されています。彼は、ジェスチャーの全空間をキャプチャするために、いくつかのインタラクティブなジェスチャーシステムを紹介しています。

  1. 操作性
  2. セマフォリック
  3. 会話的

一部の文献では、ジェスチャ認識の2つの異なるアプローチを区別しています。3Dモデルベースと外観ベースです。最も重要な方法は、手のひらの位置や関節の角度など、いくつかの重要なパラメーターを取得するために、身体部分の主要な要素の3D情報を利用します。一方、外観ベースのシステムでは、画像またはビデオを使用して直接解釈します。

実際の手(左)は3Dメッシュバージョン(右)の頂点と線のコレクションとして解釈され、ソフトウェアはジェスチャーを推測するためにそれらの相対的な位置と相互作用を使用します。

3Dモデルベースのアルゴリズム

3Dモデルアプローチでは、体積モデルまたは骨格モデル、あるいは2つの組み合わせを使用できます。ボリュームアプローチは、コンピューターアニメーション業界やコンピュータービジョンの目的で頻繁に使用されています。モデルは通常、NURBSやポリゴンメッシュのような複雑な3Dサーフェスから作成されます。

この方法の欠点は、非常に計算集約的であり、リアルタイム分析のためのシステムがまだ開発されていることです。今のところ、より興味深いアプローチは、単純なプリミティブオブジェクトを人の最も重要な体の部分(たとえば、腕と首のシリンダー、頭の球体)にマップし、これらの相互作用を分析することです。さらに、超二次曲線や一般化された円柱などの一部の抽象的な構造は、身体部分の近似にさらに適している場合があります。

骨格ベースのアルゴリズム

3Dモデルの集中的な処理を使用して多くのパラメーターを処理する代わりに、単純なバージョンのジョイント角度パラメーターとセグメント長を使用できます。これは身体の骨格表現として知られ、人の仮想骨格が計算され、身体の一部が特定のセグメントにマッピングされます。ここでの分析は、これらのセグメントの位置と方向、およびそれらの各セグメント間の関係(たとえば、ジョイントと相対的な位置または方向の間の角度)を使用して行われます

骨格モデルを使用する利点:

  • 主要なパラメーターのみが分析されるため、アルゴリズムは高速です。
  • テンプレートデータベースとのパターンマッチングが可能
  • キーポイントを使用すると、検出プログラムは身体の重要な部分に焦点を合わせることができます
これらのバイナリシルエット(左)または輪郭(右)画像は、外観に基づくアルゴリズムの典型的な入力を表します。それらは異なる手のテンプレートと比較され、一致する場合、対応するジェスチャーが推測されます。

外観ベースのモデル

これらのモデルは、テンプレートデータベースを使用して画像またはビデオから直接パラメーターを導出するため、身体の空間表現を使用しなくなりました。一部は、身体の人間の部分、特に手の変形可能な2Dテンプレートに基づいています。変形可能なテンプレートは、オブジェクトの輪郭上の点のセットであり、オブジェクトの輪郭近似の補間ノードとして使用されます。最も単純な補間関数の1つは線形であり、ポイントセット、ポイント可変性パラメーター、外部デフォーマーから平均形状を実行します。これらのテンプレートベースのモデルは、主にハンドトラッキングに使用されますが、単純なジェスチャー分類にも使用できます。

外観ベースのモデルを使用したジェスチャ検出の2番目のアプローチでは、ジェスチャテンプレートとして画像シーケンスを使用します。このメソッドのパラメーターは、画像自体、またはこれらから派生した特定の特徴のいずれかです。ほとんどの場合、1つ(モノスコピック)または2つの(ステレオスコピック)ビューのみが使用されます。

課題

ジェスチャ認識ソフトウェアの精度と有用性に関連する多くの課題があります。画像ベースのジェスチャー認識では、使用する機器と画像ノイズに制限があります。画像またはビデオは、一貫した照明下または同じ場所にない場合があります。バックグラウンドのアイテムまたはユーザーの明確な機能により、認識がより困難になる場合があります。

画像ベースのジェスチャ認識のさまざまな実装も、一般的な使用に対する技術の実行可能性に問題を引き起こす可能性があります。たとえば、あるカメラ用に調整されたアルゴリズムは、別のカメラでは機能しない場合があります。背景ノイズの量は、特にオクルージョン(部分的および完全な)が発生した場合に、追跡と認識の問題を引き起こします。さらに、カメラからの距離、およびカメラの解像度と品質も認識精度の変動を引き起こします。

視覚センサーによって人間のジェスチャーをキャプチャするには、堅牢なコンピュータービジョン手法も必要です。たとえば、手の追跡と手の姿勢認識、または頭の動き、顔の表情、または視線方向のキャプチャです。

社会的受容性

スマートフォンやスマートウォッチなどの消費者向けモバイルデバイスでのジェスチャインターフェイスの採用に対する1つの重要な課題は、ジェスチャ入力の社会的受容性の含意に由来します。ジェスチャーは、多くの新しいフォームファクターコンピューターでの高速かつ正確な入力を容易にしますが、その採用と有用性は、技術的な要因ではなく社会的な要因によって制限されることがよくあります。この目的のために、ジェスチャ入力メソッドの設計者は、さまざまな社会的文脈でジェスチャを実行するための技術的な考慮事項とユーザーの意思の両方のバランスをとろうとする場合があります。さらに、さまざまなデバイスハードウェアと検知メカニズムが、さまざまな種類の認識可能なジェスチャをサポートします。

モバイル機器

モバイルおよびスモールフォームファクタデバイスのジェスチャインターフェイスは、慣性測定ユニット(IMU)などのモーションセンサーの存在によってサポートされることがよくあります。これらのデバイスでは、ジェスチャセンシングは、これらのモーションセンサーで認識できる動作ベースのジェスチャを実行するユーザーに依存しています。これにより、自然な動きやノイズと区別しにくくなる可能性があるため、微妙な動きや動きの少ないジェスチャーからの信号のキャプチャが困難になる可能性があります。ジェスチャーの使いやすさに関する調査と研究を通じて、研究者は、既存のテクノロジーに似ているように見え、すべてのアクションに似ているように見える微妙な動きを取り入れたジェスチャーがユーザーに受け入れられる可能性が高いことを発見しました奇妙な、実行するのに不快である、コミュニケーションを妨げる、またはユーザーが使用を拒否する可能性の高い珍しい動きを伴う。モバイルデバイスジェスチャの社会的受容性は、ジェスチャの自然さと社会的文脈に大きく依存しています。

本体およびウェアラブルコンピューター

ウェアラブルコンピュータは、通常、従来のモバイルデバイスとは異なり、ユーザーの身体で使用および対話の場所が行われます。これらのコンテキストでは、サイズが小さいためタッチスクリーンやキーボードの魅力が低下するため、ジェスチャインターフェイスは従来の入力方法よりも優先される場合があります。それでも、ジェスチャのやり取りに関しては、モバイルデバイスと同じ社会的受容性障害の多くを共有しています。ただし、ウェアラブルコンピューターが見えないように隠されたり、衣服などの他の日常のオブジェクトに組み込まれたりする可能性があるため、シャツの襟を調整したり、フロントパンツのポケットを擦ったりするなど、一般的な衣服の相互作用を模倣したジェスチャー入力が可能になります。ウェアラブルコンピュータの相互作用に関する主な考慮事項は、デバイスの配置と相互作用の場所です。米国と韓国で実施されたウェアラブルデバイスの相互作用に対するサードパーティの態度を調査した研究では、男性と女性のウェアラブルコンピューティング使用の認識に違いがあることがわかりました。身体に投影されたインターフェースの社会的受容性を調査する別の研究では、同様の結果が見つかりました。両方の研究では、腰、gro径部、および上半身(女性の場合)の領域が最も許容されにくく、前腕および手首の領域が最も許容されるとラベル付けされています。

公共施設

インタラクティブパブリックディスプレイなどのパブリックインストールでは、博物館、ギャラリー、劇場などの公共の場で情報にアクセスし、インタラクティブメディアを表示できます。タッチスクリーンはパブリックディスプレイの入力形式として頻繁に使用されますが、ジェスチャインターフェイスは、衛生状態の改善、遠くからのやり取り、発見性の向上などの追加の利点を提供し、パフォーマンスのやり取りを促進します。パブリックディスプレイとのジェスチャーインタラクションに関する重要な考慮事項は、観客の観客の高い確率または期待です。そのため、ジェスチャデザインでは、ユーザー自身のエクスペリエンスだけでなく、観客のエクスペリエンスも考慮する必要があります。

「ゴリラの腕」

「ゴリラアーム」は、タッチスクリーンまたはライトペンを垂直に使用した場合の副作用でした。長時間使用すると、ユーザーの腕は疲労や不快感を感じ始めました。この効果は、1980年代の最初の人気にもかかわらず、タッチスクリーン入力の減少に貢献しました。

腕の疲労とゴリラの腕の副作用を測定するために、研究者はConsumed Enduranceと呼ばれる技術を開発しました。