『AI開発における画像・動画データ収集実態調査2024』発表
データ収集の課題は「時間」と「費用」/PIXTAのデータセットで、効率よくスピーディーな開発が可能に
ピクスタ株式会社(東京都渋谷区 代表取締役社長:古俣大介、東証グロース:3416)が運営する写真・イラスト・動画・音楽素材のマーケットプレイス「PIXTA(ピクスタ)」は、『AI開発における画像・動画データ収集実態調査2024』を実施いたしましたのでお知らせいたします。
◆『AI開発における画像・動画データ収集実態調査2024』の詳細:
https://pixta.jp/guide/?p=71779
<調査概要>
調査名:AI開発における画像・動画データ収集実態調査2024
調査期間:2024年10月21日〜2024年10月23日
調査方法:インターネットによるアンケート
回答人数総数:329名
■ 調査結果サマリ
・ データ収集の課題は「収集時間」と「費用」、実装フェーズは特に課題が多い
・ データ収集方法の主流は「オープンデータの活用」
・ データ収集にかける時間は「1週間程度」が最多
・ データ収集の費用は「20〜50万円未満」が最多、次点は「50〜100万円未満」
調査結果の詳細:https://pixta.jp/guide/?p=71779
■ データ収集の課題は「収集時間」と「費用」、実装フェーズは特に課題が多い
AI開発の「画像・動画のデータ収集」において、課題に思うことを尋ねたところ「収集に時間がかかる(58.36%)」という回答が最も多く、次いで「費用がかかる(50.15%)」、「収集するデータの要件が決まらない(43.47%)」といった声があがりました。
さらに、AI開発におけるフェーズを「構想」「PoC」「実装」「運用」の4段階に分け、自身が携わっている開発がどのフェーズなのかを選択してもらった上で、「画像・動画のデータ収集における課題」を分析。
構想、実装、運用フェーズでは「収集に時間がかかる」が最も多い結果でしたが、PoCフェーズでのみ、僅差で「費用がかかる(58.06%)」が「時間がかかる」を上回りました。次いで、構想フェーズでは「収集するデータの要件が決まらない(54.95%)」が多く、実装フェーズでは「費用がかかる(52.11%)」、運用フェーズでは「必要な量が集まらない(48.33%)」が多い結果となりました。
どのフェーズにおいても「時間・費用」の問題はつきまとうものの、構想〜PoCフェーズではデータの要件定義に課題があり、実装〜運用フェーズでは要件に合うデータやその量の確保に課題があることが伺えます。
特に実装フェーズは他のフェーズと比較すると、課題に思う項目数が多いことが特徴です。
「データ収集の方法がわからない(23.94%)」や「収集するデータの要件が決まらない(39.44%)」はポイントが低いものの、「収集に時間がかかる(59.15%)」「費用がかかる(52.11%)」に加えて、「必要な量が集まらない(43.66%)」「要件に合うデータが集まらない(50.7%)」「網羅性が低い(47.89%)」「収集したデータの分析(43.66%)」は、いずれも4割を超えています。
実装フェーズになると、いかに製品化に必要な要件に合うデータを網羅的に大量に集めるかが課題となっています。
■ データ収集方法の主流は「オープンデータの活用」
画像・動画のデータ収集方法を尋ねると「オープンデータの活用(71.73%)」が最も多い結果となりました。次いで「自社で調達(65.35%)」となっており、「専門業者から購入・依頼」は4割未満にとどまっています。
開発フェーズごとに見ると、構想フェーズのみ「自社で調達(76.92%)」が最も多く、その他のフェーズでは「オープンデータの活用」が最も多い結果となりました。
オープンデータの活用や自社でデータ調達することが主流のため、「時間がかかる」という課題が浮き彫りになっていると推察されます。
■ データ収集にかける時間は「1週間程度」が最多
データの収集にかける時間を尋ねると、最も多かったのは「1週間程度(24.01%)」で、1週間以内でまとめると66.26%と大部分を占めています。
一方、2週間以上〜1ヶ月程度という回答は約20%、2ヶ月以上〜1年以内は約7%、1年以上も約3%となっています。
多くは1週間以内でデータの収集をしているものの、1割は長期間にわたってデータを収集していることが判明いたしました。
フェーズごとにみると、実装フェーズにおいては、2週間以上の割合が多く、他のフェーズと比較して、データ収集に時間をかけていることがわかります。
実装フェーズでは、より実際の利用シーンに近いデータであることや、商用利用可能なデータである必要があるため、先述の課題にもあがっていたとおり、データ入手の難易度の高さが影響していると考えられます。
■ データ収集の費用は「20〜50万円未満」が最多、次点は「50〜100万円未満」
データ収集にかける費用はばらつきがあるものの、ボリュームゾーンは、10万円未満〜200万円未満でした。200万円以上かけるケースは17.39%と2割に満たないこともわかりました。
データ収集方法別にデータの収集費用をみると、いずれも100万円未満が半数以上を占めていますが「専門業者から購入・依頼」は自社で調達・オープンデータの活用と比べて、100万円以上かけている割合が多いことがわかります。
費用がかさみやすいのが外注のデメリットではありますが、時間などの人的リソースの削減というメリットもあります。予算とリソース、開発フェーズにおけるデータ収集の難易度に合わせて、上手に専門業者の活用を検討するのが良いでしょう。
『AI開発における画像・動画データ収集実態調査2024』のより詳細の調査結果は、
下記よりダウンロード可能です。
■ ストックフォト画像は量も質も確保できる!データセットが「10万円前後」で入手可能
PIXTAが提供する機械学習用 画像・動画データセットは、広告などのイメージ画像として予め制作された画像群の中から、写真・動画等を撮影したクリエイターに機械学習用に提供する許諾を得たものを提供しています。
日本発のストックフォト会社として、老若男女、様々な日本人画像を豊富に取り揃えていることが最大の強みですが、海外クリエイターも参加しているため、日本人以外の様々な人種の人物画像も揃えられるのが特徴です。
データ収集においては、自社で調達するが主流ですが、画像や動画データの撮影には著作権以外にも、撮影場所の管理者の許諾、人物が写る場合は肖像権の許諾など様々な確認事項と手続きが必要です。撮影に関わる様々な権利の把握と伴う手続きを理解した上で臨まなければ、クリーンなデータとは言えなくなってしまうリスクがあります。
PIXTAでは、機械学習用の撮影サービスも提供しており、ストックフォト制作で培った撮影に係る権利周辺の知見を持った上で必要な要件に合った撮影が可能です。被写体が必要な場合は、多数の人物モデルの手配も可能です。
限られた予算と時間の中で、効率よくスピーディーに開発を進めるためにも、ストックフォトのデータセットや、機械学習用の撮影に長けた撮影サービスを上手に活用することをおすすめします。
データ収集に対する課題で多かった「収集する時間」を解決するために、PIXTAでは今後もより手軽にデータ収集ができるよう、様々なデータセットを提供してまいります。
■ PIXTA機械学習用画像・動画データ提供サービスについて
PIXTAの「機械学習用データ提供サービス」は、国内最大級のストックフォトサイトである強みを活かし、9,800万点以上の商用利用できる画像・動画・音声データを機械学習の用途・要件に合わせて提供するものです。
オープンデータだけでは入手しづらい豊富な日本人画像ライブラリと、機械学習専任チームによる高度なアノテーション技術で、一気通貫でデータ収集できること強みに、画像認識AI・物体検知AI等の開発に注力する自動車・製造業界大手はじめ様々な企業から高い支持を得ています。
◆ PIXTA機械学習用画像・動画データ提供サービス:https://pixta.jp/machinelearning-dataset
◆ note(PIXTA機械学習データサービス):https://note.com/pixta_ml/
また、PIXTAの撮影サービス各種と連携し、学習データの撮り下ろしにも対応。フォトグラファーの手配はもちろん、モデル・ロケーションの手配から、撮影ディレクションまで、必要なシチュエーションの画像・動画データを撮影し提供いたします。
◆ 全国出張料無料のカメラマン手配「PIXTAオンデマンド」:https://od.pixta.jp/
◆ 完全オーダーメイドビジュアル制作「PIXTAカスタム」:https://pixta.jp/custom
【会社概要】
ピクスタ株式会社 (東証グロース:3416)
設 立:2005年8月25日
所在地:東京都渋谷区渋谷2丁目21−1 渋谷ヒカリエ 33階 JustCo Shibuya Hikarie
TEL:03-5774-2692
資本金:332,437千円(2024年9月末時点)
代表取締役社長:古俣 大介
事業内容:デジタル素材のオンラインマーケットプレイス「PIXTA」の運営、
法人向け出張撮影・カメラマンサービス「PIXTAオンデマンド」の運営、
出張撮影プラットフォーム「fotowa」の運営
子会社:PIXTA ASIA PTE. LTD.
PIXTA VIETNAM CO., LTD.
すべての画像