テキストからの動画生成、広告業界における活用状況

テキストから動画を生成するAIツールが、業界で急速に注目を集めている。広告業界における活用の可能性や限界について探る。

* 自動翻訳した記事に、編集を加えています。

ソーシャルメディアやインターネットの進化が速く、エージェンシーはコンテンツをこれまで以上に迅速かつ頻繁に制作・生成する必要に迫られている。特に、動画コンテンツの制作にはこれまで時間を要していたが、テキストから動画生成できる新しいAIツールが、この問題の解決策となる可能性がある。

市場には数多くの新しいAI動画生成ツールが登場し始めている。ChatGPTを手掛けるオープンAI（OpenAI）は、指示を文章で入力するとわずか数分でリアルかつ想像力豊かなシーンを作成できるAIモデル「Sora（ソラ）」を開発している。他にもマイクロソフト（Microsoft）の「Mora（モーラ）」、メタ（Meta）の「Movie Gen（ムービー・ジェン）」、アドビ（Adobe）の「Firefly Video Model（ファイアフライ・ビデオ・モデル）」などがある。

しかし、テキストから動画生成するこれらのツールは、新しい魅力的なツールに対する過剰な期待や興奮を超えて、広告業界で本格的に使用できる段階にあるのだろうか？　また、現在のクリエイティブの仕事を、本当に一変させることができるのだろうか？

ヴェイナーメディア・アジアパシフィック（VaynerMedia Asia Pacific）のグループ・クリエイティブ・ディレクターであるJY レイ氏は、社内でのブレーンストーミングやクライアントへのプレゼンテーションでツールを試した経験について語る。「個人的に、テキストから動画生成するツールを面白半分に使ってみたことはありますが、クライアントの仕事ではまだ試していません」。しかし、テキストから動画を生成するAIは広告、特にクリエイティブのPoC（概念実証）におけるサンドボックスとして、非常に大きな可能性を秘めていると確信している。

「社内では、クライアントへのプレゼンテーションなど、ビジョンやアイデアをより迅速に具現化するのに役立ちます。私たちはこのツールに慣れるよう、チームに勧めています」。

しかし現在のところ、ほとんどのエージェンシーはこういったツールを実験的な目的や、商用目的でない場面でしか使用していない。

この点は、インベント・アトム（Invnt.Atom）のWeb3プロジェクトマネージャーであるカート・ロイ氏も指摘する。「現時点では、テキストから動画生成するAIは、あまり感情的な深みを必要としないソーシャルメディアのコンテンツや広告を、大量に作成するのに最適です」と付け加える。

「しかし、より複雑なストーリーテリングや、非常に強いVI（ビジュアルアイデンティティー）の作成となると、この技術には限界があります。人間のクリエイティブチームのように感情の機微を表現したり、洗練度を高めることはできません。この技術に頼り過ぎると、作品が平凡に感じられるようになる可能性があります。つまり、特定の作業には素晴らしいツールですが、ヒューマンタッチが必要なキャンペーンにはまだ適していないのです」。

6月にはWPPがAIを搭載した「プロダクション・スタジオ（Production Studio）」を立ち上げた。これはテキスト、画像、動画の作成を自動化するエンドツーエンドの制作アプリケーションで、テキストを動画化する技術はまだ発展途上だ。しかし、この技術が広告主やマーケターのコンテンツ制作を変革する可能性を秘めているとWPPは確信しており、初期テストでは有望な結果が出ている。

「当社のアプローチは、シンプルで大規模な動画制作のニーズに特に効果的で、クライアントの反応も好意的です」と、WPPの最高技術責任者であるステファン・プレトリウス氏は語る。「マーケティングキャンペーンで比類のない規模やスピード、精度、創造性を実現しようとしているブランドにとって、この技術が非常に魅力的であることを、初期の反応は示唆しています」。

一方、キネッソ・オーストラリア（Kinesso Australia）のAIおよびインサイト担当ナショナルヘッドであるケリン・クッツェー氏は、この技術によってスタジオ品質のクリエイティブを、かつてないスピードで制作できるようになったと述べる。

「この技術は、制作のタイムラインとコストを変え、高品質なコンテンツを多くの人が制作できるようになります。そういった動きを強力に推進しているのは、この機能が組み込まれた主要なプラットフォームです」。

しかし、テキストから動画生成するAIツールは素晴らしい可能性を秘める一方で、ビジュアルの均質化や独創性といった人間らしさの核心部分を損なわないよう注意する必要があると、クッツェー氏は付け加える。

「当社のアプローチは、これらのツールを迅速なプロトタイピングとスケーリングに活用しながら、ブランドのストーリーテリングには人間の洞察力を活用し、AIの効率性と人間の創造性を統合しています」とクッツェー氏。「AIの能力と、人間ならではの戦略的思考や感情的知性を融合できる人々が、未来を担うことになるでしょう」。

テキストからの動画生成以外にも、一部のプラットフォームでは画像から動画を生成する機能が導入されており、クリエイターは画像を始点として設定し、プロンプトと組み合わせて動画を生成できる。

「このアプローチは、アートディレクションをより細かくコントロールできるため、とても便利です」とDentsu Creativeシンガポールの最高イノベーション責任者であるヨン・ホック・チャイ氏は語る。「正しい出力を得るために何度も試行する必要がある、予測不可能なプロンプトだけに頼るよりも、スタートフレームを視覚的に指定することははるかに実用的です」。

初期のトラブルと倫理的なジレンマ

期待の高まりとは裏腹に、Soraを含むほとんどのツールはまだベータテストの段階にある。可能性は確かに魅力的ではあるが、利用できる範囲は限られている。オープンAIの元最高技術責任者（CTO）であるミラ・ムラティ氏は3月のインタビューで、Soraはサウンド機能が追加されて今年リリースされる可能性があり、その時期は「数カ月後になる可能性もある」と述べた。

テキストを動画に変換するAIは急速に進化しており、素晴らしい成果を上げているが、まだ十分ではないと感じている人も多い。

「動画は往々にして『不自然』に見え、ビジュアルのアーティファクト（生成物に含まれる不具合）は業界のプロであれば簡単に見分けられるでしょう」とレイ氏は言う。「例えばSoraは、依然として一部のベータテスターしか利用できません。MoraやMovie Genなどの他のツールも、出力の長さや解像度に制限があり、大規模なフォーマットでの制作を求めるエージェンシーには適していません」。

確かに初期段階である今は、この技術に限界が無いわけではない。要件にきっちりと一致する動画を生成するには、複数回に及ぶ試行とプロンプトが必要となることが多い。

「カメラの動きに関するプロンプトに、完全に正確に従うことができるモデルはまだ見当たりません」と語るのは、ウィーアーソーシャル・シンガポール（We Are Social Singapore）でイノベーションディレクターを務めるマノリス・ペラキス氏だ。「ほとんどのモデルは、今のところ10秒を超える動画を生成することができません。不可能というわけではありませんが、より長いコンテンツを生成するのは現時点ではかなり難しいでしょう」。

また、モデルが学習する素材によっては、著作権の問題も生じる。

「著作物でトレーニングされたツールもあるため、ブランドやエージェンシーは使用するツールには注意する必要があります」とペラキス氏。「著作権法に違反したり、使用してはいけない素材を使用することがないよう、モデルが学習したデータセットが何なのかを理解することが重要です」。

既に、自身の作品が不正に使用されたと主張するビジュアルアーティストのグループが、スタビリティーAI（Stability AI）、デヴィアント・アート（DeviantArt）、ミッドジャーニー（Midjourney）、ランウェイAI（Runway AI ）を相手取って著作権侵害の訴訟を起こしている。また404メディア（404media ）が入手した文書によると、今年初めにはランウェイ社の「ランウェイML（Runway ML）」が最新の動画生成ツール「Gen-3」のトレーニングにピクサー（Pixar）、ネットフリックス（Netflix）、ディズニー（Disney）、ソニー（Sony）など数千もの人気メディア企業のユーチューブチャンネルを使用していたようだ。ランウェイMLは現在、著作権およびトレードドレス（視覚的な外観のデザイン）を侵害した疑いで訴えられている。

ソフトウェア大手のアドビは先月、AIを活用してテキストから動画を生成するツール「Firefly Video Model」を発表した。このモデルはライセンス取得済みの動画のみをトレーニングに利用しているため、これまでの生成AIにつきまとっていた倫理的および著作権上の問題を回避できる可能性があると同社は主張する。

アドビによると、Firefly Video Modelは「安全に商用利用が可能な、一般に提供される初めてのビデオモデル」だ。しかし同社は一般向けのリリースの日程を発表していない。ベータ版へのアクセスは、ウェイティングリストに登録した人だけが許可されている。

「著作権の問題は氷山の一角に過ぎません」とクッツェー氏。「ディープフェイクやAIインフルエンサーの台頭は、倫理に関する深刻な懸念を引き起こしています。AI生成コンテンツにラベルを付けるには、広告の開示と同様に、透明性を確保して消費者の信頼を維持するための堅牢なシステムが必要です」。

著作権や倫理に関する懸念の高まり以外にも、正確性とハルシネーション（誤った情報出力）という課題が動画生成ツールにはある。

「初期の画像生成ツールでは、人間の手が6本になってしまうといったエラーが見られましたが、このようなアーティファクトやハルシネーションは動画生成でも非常に一般的です」とペラキス氏。「これらのエラーを克服するには時間がかかり、細部まで注意深く見る（人間の）目も必要です」。

さらに、AIは画像の生成には優れていますが、編集は得意ではない。

「クリエイター向けに設計されたツールでは、動画の一部や個々の要素を修正する機能が不可欠です」とチャイ氏。「現在はパラメータやプロンプトを調整すると、AIは既存の動画を改良するのではなく、まったく新しい動画を生成してしまいます。これは非常にリソースを消費する可能性があり、クライアントとクリエイティブチームが共通理解に達しない場合にはワークフローの変更を余儀なくされるかもしれません」。

クリエイターが指摘するもう一つの障害は、カラーパレット、フォント、トーンオブボイスといったブランド固有の要素に対するニュアンスの理解が不足している点で、ブランドの表現を誤るリスクが高まるとクッツェー氏は指摘する。

「AIが生成したコンテンツが、クライアント固有のもので、多様性があり、文化的に配慮されたものとなるよう、カスタムガードレールを適用できる機能が必要です」とクッツェー氏。「エージェンシーとしての最大の懸念は、AIが製品の表現をうっかり誤ってしまうという法的リスク。例えば、クライアントが実際には提供していない自動車の色を描写してしまうといったものです」。

テキストからの動画生成は、映像作家に取って代わるのか？

テキストから動画を生成するAIや、彼らの生計を脅かすような新技術の台頭を、映像作家やビデオグラファーが懸念するのは当然のことだ。しかし大多数は、これらのツールを脅威ではなくチャンスとして捉えるべきだと考えている。

「ストーリーテリングや感情的な共鳴において、ヒューマンタッチは依然としてかけがえのないものです」とクッツェー氏は言う。「AIは真のアーティストに取って代わるものではなく、アーティストが創造性の新たな高みに到達できるよう支援するものです」。

少なくとも現段階では、テキストから動画生成する機能は、クリエイターのツールキットにもう一つのツールが追加されるだけとなる可能性が高い。

「通常であれば大きな予算や長い期間を必要とするエキゾチックなロケーションや複雑な場面を、これによって視覚化できるようになります」とチャイ氏は語る。「将来的には、編集者やモーションアーティストにフォーカスが移るかもしれませんが、ストーリーをまとめるための重要な要素を捉えるには、依然として映像作家やビデオグラファーは不可欠です」。

複雑なシーンの作成は容易になるものの、感情やキャラクターのやりとりといった人間的な側面に関しては、映像作家が撮影する必要がある。現在の動画生成AIは、その領域が不得意だからだ。

「映像作家は、AIに取って代わられることを心配するよりも、AI制作をサービスとしてワークフローに統合することに注力すべきだと思います」と、ピュブリシス・グループ・インド（Publicis Groupe India）のデジタルテクノロジー事業担当CEOであるアマレシュ・ゴドボレ氏は語る。

「ある程度の規模やパーソナライゼーションのレベルであれば、AIによる動画生成の方が理にかなっているという状況になるかもしれませんが、ブランドの傑作動画については人間が撮影を続ける必要があります。また、脚本のカスタマイズされた部分をAIで生成し、その他の部分は撮影するというハイブリッドなアプローチも考えられます。全体として、映像作家が変化を前向きに受け入れる姿勢である限り、これは非常に刺激的な機会となるでしょう」。

提供:

Campaign Asia-Pacific

タグ