三菱電機グループの研究員の論文7件がIROS2024にて採択

AI・ロボティクス分野のトップカンファレンスにおいて研究成果が評価

三菱電機株式会社

2024年10月3日 11時30分

　三菱電機株式会社は、当社開発本部情報技術総合研究所（神奈川県鎌倉市）および米国の現地法人であるMitsubishi Electric Research Laboratories（米国マサチューセッツ州、以下MERL）の研究員の論文7件が、IROS2024にて採択されましたのでお知らせします。

　IROS（IEEE/RSJ International Conference on Intelligent Robots and Systems）は、AIとロボティクス分野のトップカンファレンスで、特にロボティクス分野では世界で最大規模のInstitute of Electrical and Electronics Engineers（IEEE）とThe Robotics Society of Japan（RSJ）が共催する国際学会です。2024年は、3300件を超える投稿の中から、47％の論文が採択されています。

　各成果の詳細は、アブダビで10月14日から18日まで開催される同国際会議で発表する予定です。今後も持続可能な未来への貢献を目指し、先端技術の研究開発に取り組んでまいります。

■「IROS」採択論文7件の概要について

＜2024年当社グループのIROS採択論文のタイトル・著者・概要一覧＞

○タイトル Autonomous Robotic Assembly: From Part Singulation to Precise Assembly ○著者太田佳（三菱電機）、Devesh K Jha（MERL）、Siddarth Jain（MERL）、William Yerazunis（MERL）、Radu Corcodel（MERL）、Yash Shukla（Tufts University）、Antonia Bronars（MIT）、Diego Romeres（MERL）
○概要現在の工場では、任意の部品が必ず所定の位置に送られ、システムインテグレータがそれらの点をつなぐようにロボットの動作を設計し、指示することで自動化が行われています。そのため、新しい部品の導入や新製品を組み立てる際には、その都度ロボットの動作を設計して指示する必要があり、高いコストが発生します。本研究では、力覚センサ・触覚センサ・ビジョンセンサの情報を組み合わせ、ロボットの動作をあらかじめ設計・指示することなく、任意の位置に置かれたギアボックスのパーツ（2つのギア・シャフト）を自動的に組み上げる手法を提案しました。これにより、事前にロボットの動作にかかわる設計が不要となるため、組み立てにかかる時間の短縮と低コスト化が期待できます。

○タイトル

Autonomous Robotic Assembly: From Part Singulation to Precise Assembly

○著者

太田佳（三菱電機）、Devesh K Jha（MERL）、Siddarth Jain（MERL）、William Yerazunis（MERL）、Radu Corcodel（MERL）、Yash Shukla（Tufts University）、Antonia Bronars（MIT）、Diego Romeres（MERL）

○概要

現在の工場では、任意の部品が必ず所定の位置に送られ、システムインテグレータがそれらの点をつなぐようにロボットの動作を設計し、指示することで自動化が行われています。そのため、新しい部品の導入や新製品を組み立てる際には、その都度ロボットの動作を設計して指示する必要があり、高いコストが発生します。本研究では、力覚センサ・触覚センサ・ビジョンセンサの情報を組み合わせ、ロボットの動作をあらかじめ設計・指示することなく、任意の位置に置かれたギアボックスのパーツ（2つのギア・シャフト）を自動的に組み上げる手法を提案しました。これにより、事前にロボットの動作にかかわる設計が不要となるため、組み立てにかかる時間の短縮と低コスト化が期待できます。

○タイトル Domain Randomization-free Sim-to-Real: An Attention-Augmented Memory Approach for Robotic Tasks ○著者曲佳（三菱電機）、大坪舜（三菱電機）、山之口智也（奈良先端科学技術大学院大学）、松原崇充（奈良先端科学技術大学院大学）、三輪祥太郎（三菱電機）
○概要シミュレーションで学習したモデルを実世界に適応させることは、ロボティクス分野における重要な課題となっています。現在、標準的に用いられるドメインランダム化（※1）は、シミュレーション内の多様性を高めることで効果を上げていましたが、膨大な学習が必要であり、ヒューリスティックな手法（※2）に依存しているという課題がありました。本研究では、ドメインランダム化を必要とせず、シミュレーションと実世界の両方で有効かつ正常に機能し続ける、頑健なモデルを学習する新しいロボット学習アーキテクチャを提案しました。この手法により、シミュレーションでの学習コストを最小限に抑えながら、異常な状況や予期しない入力に対しても正常に機能し続ける性能を保有し、実世界での変動に適応できることを実証しました。

○タイトル

Domain Randomization-free Sim-to-Real: An Attention-Augmented Memory Approach for Robotic Tasks

○著者

曲佳（三菱電機）、大坪舜（三菱電機）、山之口智也（奈良先端科学技術大学院大学）、松原崇充（奈良先端科学技術大学院大学）、三輪祥太郎（三菱電機）

○概要

シミュレーションで学習したモデルを実世界に適応させることは、ロボティクス分野における重要な課題となっています。現在、標準的に用いられるドメインランダム化（※1）は、シミュレーション内の多様性を高めることで効果を上げていましたが、膨大な学習が必要であり、ヒューリスティックな手法（※2）に依存しているという課題がありました。本研究では、ドメインランダム化を必要とせず、シミュレーションと実世界の両方で有効かつ正常に機能し続ける、頑健なモデルを学習する新しいロボット学習アーキテクチャを提案しました。この手法により、シミュレーションでの学習コストを最小限に抑えながら、異常な状況や予期しない入力に対しても正常に機能し続ける性能を保有し、実世界での変動に適応できることを実証しました。

○タイトル DECAF: a Discrete-Event based Collaborative Human-Robot Framework for Furniture Assembly ○著者 Giulio Giacomuzzo（Università di Padova）, Matteo Terreran（Università di Padova）, Siddarth Jain（MERL）, Diego Romeres（MERL）
○概要手先の器用さや問題解決能力を有する人間と、高精度な動作が可能なロボットのそれぞれが得意とする能力を活用することで、人とロボットが協調して家具の組み立てのような複雑な作業を効率よく行う「人間とロボット協調分野」への関心が高まっています。人間が事前に決められた行動順序に縛られず自由に行動する中で、協調ロボットは組み立て作業全体を通して、最短で効率的に作業を完了する行動計画を計算することが求められます。本研究で今回提案した手法は、問題を離散事象マルコフ決定問題（※3）としてモデル化し、強化学習を用いてロボットの最適な動作を導き出します。シミュレーションによる評価に加え、実際に人間とロボットが協調して椅子を組み立てる実験を行い、有効性を確認しました。

○タイトル

DECAF: a Discrete-Event based Collaborative Human-Robot Framework for Furniture Assembly

○著者

Giulio Giacomuzzo（Università di Padova）, Matteo Terreran（Università di Padova）, Siddarth Jain（MERL）, Diego Romeres（MERL）

○概要

手先の器用さや問題解決能力を有する人間と、高精度な動作が可能なロボットのそれぞれが得意とする能力を活用することで、人とロボットが協調して家具の組み立てのような複雑な作業を効率よく行う「人間とロボット協調分野」への関心が高まっています。人間が事前に決められた行動順序に縛られず自由に行動する中で、協調ロボットは組み立て作業全体を通して、最短で効率的に作業を完了する行動計画を計算することが求められます。本研究で今回提案した手法は、問題を離散事象マルコフ決定問題（※3）としてモデル化し、強化学習を用いてロボットの最適な動作を導き出します。シミュレーションによる評価に加え、実際に人間とロボットが協調して椅子を組み立てる実験を行い、有効性を確認しました。

○タイトル Insert-One: One-Shot Robust Visual-Force Servoing for Novel Object Insertion with 6-DoF Tracking ○著者 Haonan Chang（Rutgers University）, Abdeslam Boularias（Rutgers University）, Siddarth Jain（MERL）
○概要自律ロボットの進歩により、受け口となる穴の中にコネクタ等のピンを挿入するピン挿入作業ではサブミリメートル精度での組み立て作業が可能になっていますが、複雑な形状の組み合わせや部品の位置ずれ・カメラの較正誤差への対応など、臨機応変な作業が必要となる場合には、事前のデータ収集による学習が必要になります。本研究では、ワンショットの画像を用いた簡単な学習により、対象物を任意の方向から挿入することができる手法を提案しました。6方向に動くことが可能な対象物の姿勢の追跡とインピーダンス制御（※4）を組み合わせ、リアルタイムの視覚フィードバックによりサブミリメートルの精度を必要とする挿入を実現します。事前の学習は不要で、カメラの較正誤差や対象物の位置のずれにも適切に対応することができます。

○タイトル

Insert-One: One-Shot Robust Visual-Force Servoing for Novel Object Insertion with 6-DoF Tracking

○著者

Haonan Chang（Rutgers University）, Abdeslam Boularias（Rutgers University）, Siddarth Jain（MERL）

○概要

自律ロボットの進歩により、受け口となる穴の中にコネクタ等のピンを挿入するピン挿入作業ではサブミリメートル精度での組み立て作業が可能になっていますが、複雑な形状の組み合わせや部品の位置ずれ・カメラの較正誤差への対応など、臨機応変な作業が必要となる場合には、事前のデータ収集による学習が必要になります。本研究では、ワンショットの画像を用いた簡単な学習により、対象物を任意の方向から挿入することができる手法を提案しました。6方向に動くことが可能な対象物の姿勢の追跡とインピーダンス制御（※4）を組み合わせ、リアルタイムの視覚フィードバックによりサブミリメートルの精度を必要とする挿入を実現します。事前の学習は不要で、カメラの較正誤差や対象物の位置のずれにも適切に対応することができます。

○タイトル Open Human-Robot Collaborations using Decentralized Inverse Reinforcement Learning ○著者 Prasanth Sengadu Suresh（University of Georgia）, Siddarth Jain（MERL）, Prashant Doshi（University of Georgia）, Diego Romeres（MERL）
○概要人間とロボットが協力して共通の目標を達成する「人間とロボット協調分野」への関心が高まっています。従来の人間とロボットの協調システムでは、すべての工程において、人間とロボットが最初から最後まで一緒に作業することを前提として設計されており、人間が必要に応じて作業に参加、退出することができませんでした。本研究では、人間の取りうる行動パターンや作業内容を考慮し、ロボットと人間が柔軟かつ効率的に協調して作業することができる新しいマルチエージェントシステム（※5）を提案しました。これにより、人間は作業行程中に自由に参加、退出することができ、他の作業を並行して行うことができます。シミュレーションによる評価に加え、実際に人間とロボットが協調して家具を組み立てる作業で実験を行い、有効性を確認しました。

○タイトル

Open Human-Robot Collaborations using Decentralized Inverse Reinforcement Learning

○著者

Prasanth Sengadu Suresh（University of Georgia）, Siddarth Jain（MERL）, Prashant Doshi（University of Georgia）, Diego Romeres（MERL）

○概要

人間とロボットが協力して共通の目標を達成する「人間とロボット協調分野」への関心が高まっています。従来の人間とロボットの協調システムでは、すべての工程において、人間とロボットが最初から最後まで一緒に作業することを前提として設計されており、人間が必要に応じて作業に参加、退出することができませんでした。本研究では、人間の取りうる行動パターンや作業内容を考慮し、ロボットと人間が柔軟かつ効率的に協調して作業することができる新しいマルチエージェントシステム（※5）を提案しました。これにより、人間は作業行程中に自由に参加、退出することができ、他の作業を並行して行うことができます。シミュレーションによる評価に加え、実際に人間とロボットが協調して家具を組み立てる作業で実験を行い、有効性を確認しました。

○タイトル Few-shot Transparent Instance Segmentation for Bin Picking ○著者 Anoop Cherian（MERL）, Siddarth Jain（MERL）, Tim K. Marks（MERL）
○概要多くの物体が混在する「ビン」と呼ばれる専用コンテナの中から特定の物体を取り出す「ビンピッキング」では、ロボットがつかむ対象の物体を他の物体や背景と区別する必要があります。物体がガラス瓶などの透明または半透明物体の場合、背景や重なっている他の透明物体と区別しにくいため、物体をつかむために物体の境界を認識して特定することが難しいという課題があります。本研究では、カラー画像またはグレースケール画像から、個々の透明な物体の領域を分割する新しい2つの手法を提案しました。少数のアノテーション付き学習データ（※6）から透明な物体の学習データを合成する手法と、領域を分割することで予測した物体形状と物体の理想的な形状を一致させる学習手法により、少数のアノテーション付き学習データのみでセグメンテーション精度（※7）を14％以上改善し、最先端の性能を達成しました。

○タイトル

Few-shot Transparent Instance Segmentation for Bin Picking

○著者

Anoop Cherian（MERL）, Siddarth Jain（MERL）, Tim K. Marks（MERL）

○概要

多くの物体が混在する「ビン」と呼ばれる専用コンテナの中から特定の物体を取り出す「ビンピッキング」では、ロボットがつかむ対象の物体を他の物体や背景と区別する必要があります。物体がガラス瓶などの透明または半透明物体の場合、背景や重なっている他の透明物体と区別しにくいため、物体をつかむために物体の境界を認識して特定することが難しいという課題があります。本研究では、カラー画像またはグレースケール画像から、個々の透明な物体の領域を分割する新しい2つの手法を提案しました。少数のアノテーション付き学習データ（※6）から透明な物体の学習データを合成する手法と、領域を分割することで予測した物体形状と物体の理想的な形状を一致させる学習手法により、少数のアノテーション付き学習データのみでセグメンテーション精度（※7）を14％以上改善し、最先端の性能を達成しました。

○タイトル Disentangled Acoustic Fields for Multimodal Physical Scene Understanding ○著者 Jie Yin（Shanghai Jiao Tong University）, Andrew Luo（Carnegie Mellon University）, Yilun Du（MIT）, Anoop Cherian（MERL）, Tim K. Marks（MERL）, Jonathan Le Roux（MERL）, Chuang Gan（MIT-IBM AI Lab and UMass Amherst）
○概要物体が落下した場所を特定するために、マルチモーダル情報（※8）を使って物理的なシーンを理解する研究に取り組んでいます。例えば、ロボットが落下した物体を見つけるためには、物体の特性や衝撃音の方向と距離を推測する必要があります。従来はニューラルネットワーク（※9）を用いて音から直接これらの値を推定していましたが、学習に使用した部屋などのある特定の環境の音響特性に過剰に適合することがあり、汎用性に課題がありました。本研究では、さまざまな環境の音響特性をモデル化するための新しい音場モデル（※10）を提案しました。音の生成と伝播プロセスを捉えるために音場モデルを学習することで、物体が落下した場所の不確実性マップ（※11）を構築します。構築した不確実性マップを用いて落下した可能性のある複数の場所を提案することで、落下物体の位置特定の成功率が大幅に向上しました。

○タイトル

Disentangled Acoustic Fields for Multimodal Physical Scene Understanding

○著者

Jie Yin（Shanghai Jiao Tong University）, Andrew Luo（Carnegie Mellon University）, Yilun Du（MIT）, Anoop Cherian（MERL）, Tim K. Marks（MERL）, Jonathan Le Roux（MERL）, Chuang Gan（MIT-IBM AI Lab and UMass Amherst）

○概要

物体が落下した場所を特定するために、マルチモーダル情報（※8）を使って物理的なシーンを理解する研究に取り組んでいます。例えば、ロボットが落下した物体を見つけるためには、物体の特性や衝撃音の方向と距離を推測する必要があります。従来はニューラルネットワーク（※9）を用いて音から直接これらの値を推定していましたが、学習に使用した部屋などのある特定の環境の音響特性に過剰に適合することがあり、汎用性に課題がありました。本研究では、さまざまな環境の音響特性をモデル化するための新しい音場モデル（※10）を提案しました。音の生成と伝播プロセスを捉えるために音場モデルを学習することで、物体が落下した場所の不確実性マップ（※11）を構築します。構築した不確実性マップを用いて落下した可能性のある複数の場所を提案することで、落下物体の位置特定の成功率が大幅に向上しました。

※1　人工知能の訓練において、AIが実世界のさまざまな状況に対応できるように、訓練環境のパラメータをランダムに変化させる手法

※2　問題解決や意思決定を行う際に、完全な解答を見つけるのが難しいまたは時間がかかる場合に、近似的な解答を迅速に見つけるための経験的な方法やルールを用いること

※3　状態が離散的かつ確率的に遷移するシステムの最適制御を求める問題で、強化学習の一部として広く用いられている

※4　ロボット工学における制御手法の一つで、ロボットの動きと外部からの力との関係を調整し、ロボットが外部からの力に応じて柔軟に動くことを可能にする

※5　自分の周囲の状況を認識し、認識した状況に基づいて主体的に判断・行動する、人間やロボットなどの主体（エージェント）が複数存在するシステム

※6　教師あり学習のために「ラベル」がついたデータセットのこと。画像セグメンテーションタスクの場合には画素単位にラベルを付けることで、画像内の各オブジェクトの形状と属性を表す

※7　画像セグメンテーション（画像を複数の部分やセグメントに分割するタスク）の性能を評価する指標

※8　複数の異なるタイプのデータまたは情報源から得られる情報（視覚・聴覚・触覚・テキストなど）

※9　人間の脳の神経細胞（ニューロン）の動作を模倣した機械学習の一種で、大量のデータからパターンを学習し、新しいデータに対する予測を行うことが可能

※10　音が空間を通過する際の振る舞いを数学的に表現したもので、音響学、音響工学、音響信号処理などの分野で広く使用されている

※11　予測や推定の結果に関する不確実性を視覚的に表現した2次元マップ。ここではシミュレーションで予測した音源の位置と実際の入力音の位置との誤差について、不確実性を表す指標として色や強度で表現する

＜お客様からのお問い合わせ先＞