【提供開始】画面認識×タスク実行のVLM「VisionCore/TaskMind」、SIer・RPA事業者向けに提供開始
画面を理解し、業務操作を自律的に遂行するAI基盤を独自開発。業界標準を超える高精度なVLMをパートナー向けに展開。

株式会社ロビンソン・コンサルティング(本社:東京都文京区、代表取締役:ロビンソン コスモ、以下「当社」)は、GUI画面を視覚的に認識し、タスクを推論・実行する2つの独自AIモデル「VisionCore」「TaskMind」を統合したVLM(Vision Language Model)を開発。SIerおよびRPA事業者向けに提供を開始しました。
本VLMは、複雑なGUI操作や業務手順を人間のように理解し、マウス・キーボードによる操作をAIが自律的に実行可能とする、次世代の画面自動操作エージェントの中核を担う技術です。
■ 技術構成と特長
▷ VisionCore:GUIを「読む」視覚認識モデル
-
画面上の構成要素(ボタン、入力欄、リンクなど)をリアルタイムに検出
-
DOM非依存で、実際のビジュアルを基に操作対象を特定
-
視覚的文脈(例:ボタンの色・位置・周囲のラベル)を含めた多次元理解を実現
▷ TaskMind:「次に何をすべきか」を判断するタスク推論モデル
-
業務文脈・ユーザー指示を理解し、操作手順を計画生成(Action Planning)
-
過去の実行履歴や画面状態をもとに動的に判断・適応
-
自然言語から操作シナリオを即時に構築可能
■ 強化学習による継続的な性能向上
当社では、VLM全体の精度向上のため、強化学習(Reinforcement Learning)を用いて繰り返し学習を行っています。
ユーザーの意図に対して「成功した操作」「失敗した操作」をフィードバックとして学習させることで、未知の画面や業務フローにも柔軟に対応できるよう設計されています。
特にTaskMindは、自己強化ループにより、同じ操作指示に対しても最適な手順を選択するように進化し続けます。
■ ベンチマーク比較:業界標準を上回る性能
当社のVLM(VisionCore/TaskMind)は、業務UIの複雑さや日本語環境への適応力において、GPT-4oをはじめとした汎用VLMと比較しても高いタスク遂行精度を示しています。
特に、5ステップ以上のGUI操作や複数条件の判断が求められる業務において、より安定した実行成功率を記録しており、実運用を前提としたタスク実行性能で差別化を実現しています。
■ 主な提供内容(パートナー向け)
-
VisionCore/TaskMind モデルAPIの提供
-
エージェント開発支援SDK(シナリオ構築/画面録画ベース)
-
カスタマイズ・チューニング支援(特定業務・業界向け)
-
技術共有・共同開発プログラム(OEM・再販パートナー歓迎)
■ 主な適用シーン
-
RPA補完:人手操作が残るGUI業務の完全自動化
-
システム導入後のアフター業務(例:定型レポート生成)
-
自社製業務ツールのUIテスト・自動検証
-
業界別(金融・製造・物流)における業務マニュアルの自動実行 など
■今後の展望
当社は今後、画面自動操作にとどまらず、「業務の文脈理解と最適行動の自動選択」という領域において、さらに高性能な自律エージェントの開発を進めてまいります。
VLM技術は、業務現場の“実行インテリジェンス”を支える新しい土台として、国内外のSIer・RPA企業と連携し、業務自動化の未来を共創していきます。
■会社概要
会社名:株式会社ロビンソン・コンサルティング
所在地:〒112-0004 東京都文京区後楽2-3-21 住友不動産飯田橋ビル GROWTH 文京飯田橋 3階 Room7
代表者:代表取締役 ロビンソン コスモ
事業内容:生成AI・業務自動化・VLMエージェント開発 等
URL:https://deepagent.jp/
■本件に関するお問い合わせ先
広報担当:ロビンソン コスモ
メール:robinson@robinson-consulting.co.jp
TEL:090-2869-2457
このプレスリリースには、メディア関係者向けの情報があります
メディアユーザー登録を行うと、企業担当者の連絡先や、イベント・記者会見の情報など様々な特記情報を閲覧できます。※内容はプレスリリースにより異なります。
すべての画像