今年初めのSORAの登場以来、国内外でAIを活用したハリウッド革命の試みが活発化しています。AI動画業界は特に活況を呈しており、SORAを超えると謳う製品が次々と登場しています。 この戦いをリードしているのは、国際的なAIビデオスタートアップ企業2社です。サンフランシスコに拠点を置くAIテクノロジー企業Lumaは、動画生成モデル「Dream Machine」を発表し、映画のような効果を謳うプロモーションビデオを公開し、ユーザーに製品の無料トライアルを提供しています。AIビデオ分野で高い評価を得ているもう一つのスタートアップ企業Runwayも、Gen-3 Alphaモデルを一部ユーザーに公開し、光や影などのディテールを生成できると主張しています。 国内企業も負けてはいない。快手は、最長10秒の動画を生成できるウェブプラットフォーム「克玲(ケリン)」を立ち上げた。フレームコントロールやカメラレンズコントロール機能も備えている。同社が制作したオリジナルAIファンタジー短編ドラマ「山海鏡:波濤裂(サンシンドゥイ:フューチャーアポカリプス)」も快手で放映されており、すべての映像はAIによって生成された。バイトダンスのAI動画製品「集夢(ジモン)」が制作したAI SF短編ドラマ「三星堆:未来黙示録(サンシンドゥイ:フューチャーアポカリプス)」も最近公開された。 AIによる動画更新の急速なペースに、多くのネットユーザーが「ハリウッドは再び大きなストライキに見舞われるかもしれない」と驚いている。 現在、AI動画分野は、Google、Microsoft、Meta、Alibaba、ByteDance、Meituといった国内外のテクノロジー・インターネット大手に加え、RunwayやAishi Technologyといった新興企業によって席巻されています。「Dingjiao」の不完全な統計によると、中国だけでも約20社が独自のAI動画製品/モデルをリリースしています。 頭宝研究院のデータによると、中国のAI動画生成産業の市場規模は2021年に800万元で、2026年には92億7900万元に達すると予測されている。多くの業界関係者は、2024年が動画生成分野にとって中間地点になると考えている。 ソラは世界的にどの発展段階に達しているのか?最強は誰なのか?AIはハリウッドを倒せるのか? I. ソラの包囲網:製品は多いが、使えるものは少ないAI動画製品やモデルは数多くリリースされていますが、一般公開されているものはごくわずかです。国際的に顕著な例としてはSoraが挙げられますが、リリースから6ヶ月が経過した現在もクローズドベータ版の段階にあり、セキュリティチームと一部のビジュアルアーティスト、デザイナー、映画制作者のみがアクセス可能です。国内でも状況は同様です。アリババ・ダモ・アカデミーのAI動画製品「Xunguang」と百度のAI動画モデル「UniVG」はどちらもクローズドベータ版です。現在人気の快手克玲は、ユーザーが利用するには申請と順番待ちが必要で、実質的に利用可能な製品の大部分が利用できなくなっています。 残りの利用可能なAIビデオ製品の中には、利用に障壁があり、ユーザーに料金を支払ったり、一定の技術的知識を要求したりするものがあります。例えば、Luchen TechnologyのOpen-Soraは、コーディングの知識がないユーザーには全く利用できません。 「Focus」は国内外で発売されているAI動画製品をリストアップし、各社の操作方法や機能が類似していることを発見しました。ユーザーはまずテキストで指示を生成し、同時にフレームサイズ、画像の鮮明度、生成スタイル、生成時間などの機能を選択し、最後にクリックするだけでワンクリックで生成できます。 これらの機能の背後にある技術的な課題は多岐にわたります。最も難しいのは、生成される動画の鮮明さと長さです。これは、AI動画分野における企業間の競争の焦点でもあります。これは、学習プロセスで使用される素材の品質と、必要な計算能力の量に密接に関連しています。 AI研究者のサイラス氏は「フォーカス」に対し、国内外のほとんどのAIビデオは現在480p/720pビデオの生成をサポートしているが、1080pの高解像度ビデオをサポートしているものは少数だと語った。 彼は、利用可能な高品質のソースマテリアルが多ければ多いほど、そして計算能力が高ければ高いほど、学習済みモデルはより高品質な動画を生成できると説明した。しかし、高品質のソースマテリアルがあるからといって、計算能力が高品質のソースマテリアルを生成することを保証するわけではない。さらに、低解像度のソースマテリアルで学習したモデルは、高解像度の動画を生成しようとすると、余分な腕や脚などのアーティファクトや繰り返しが発生する。これらの問題は、ズームイン、修復、再描画などの方法で対処できるが、結果と詳細度は一般的に限られている。 多くの企業は、生成される秒数の長さをセールスポイントとしても活用しています。 国内のAI動画生成ツールは2~3秒程度が主流で、5~10秒程度まで生成できるものは比較的高性能だと考えられています。中には、Jimengのように12秒までしか生成できない製品もありますが、かつては最長60秒の動画生成が可能と謳っていたSoraに匹敵するものはありません。しかし、Soraはまだ一般公開されていないため、実際の性能は検証できていません。 動画の長さだけでは不十分です。生成される動画コンテンツも妥当なものでなければなりません。Shiliu AIのチーフリサーチャーである張恒氏は「Focus」誌に次のように語っています。「技術的には、AIに連続的な出力を要求することは可能です。1時間の動画を生成することさえ問題ないと言っても過言ではありません。しかし、多くの場合、私たちが必要としているのは監視ビデオやループする風景アニメーションではなく、美しい映像とストーリー性のある短編映画なのです。」 「Focus」は、中国で人気の無料テキストベース動画AI製品5社(ByteDanceのJiDream、Morph AIのMorph Studio、AiShi TechnologyのPixVerse、MewXAIのYiYing AI、RightBrain TechnologyのVega AI)をテストしました。これらの製品には、「赤いドレスを着た小さな女の子が公園で白いウサギにニンジンをあげています」という同じテキスト指示が与えられました。 これらの製品は、わずか 2 ~ 3 分でほぼ同じ速度でデータを生成しますが、その明瞭さ、持続時間、精度は大きく異なります。 各プラットフォームにはそれぞれ長所と短所があります。Dreamscapesは長さでは勝っていますが、生成品質は低く、主人公である少女の姿は後半で大きく歪んでしまいます。Vega AIも同様の問題を抱えています。PixVerseのグラフィックは比較的劣っています。 それに比べて、Morphが生成したコンテンツは正確ですが、表示時間はわずか2秒です。ArtEyeの画質も良好ですが、テキストの理解が不十分で、肝心のウサギの姿が全く見えません。また、生成された動画はリアリティーに欠け、漫画風に近くなっています。 つまり、要件を満たすビデオを提供している製品はまだありません。 II. AIビデオの課題:正確性、一貫性、豊かさ「固定フォーカス」のユーザー体験は、各社が公開しているプロモーション動画とは大きく異なります。AI動画が真の実用化に至っては、まだまだ道のりは遠いと言えるでしょう。 張恒氏は「Focus」に対し、技術的な観点からは、主に正確性、一貫性、豊富さという3つの側面から、さまざまなAIビデオモデルのレベルを考慮していると語った。 これら 3 つの側面をどのように理解するかを説明するために、張衡氏は例を挙げました。 たとえば、「2人の女の子が遊び場でバスケットボールの試合を観戦している」ビデオを生成します。 正確さはいくつかの側面に反映されます。まず、コンテンツ構造の正確な理解 (ビデオに 2 人の女の子が登場していることを確認するなど)、2 番目に正確なプロセス制御 (シュートが成功した後、バスケットボールがネットから徐々に降りてくることを確認するなど)、そして最後に、正確な静的データ モデリング (シュートに障害物があってもバスケットボールがラグビー ボールに変形しないことを確認するなど) です。 一貫性とは、主観的な注意と長期的な注意を含む、空間と時間内でモデル化する AI の能力を指します。 一次注意とは、バスケットボールの試合を見ているときに 2 人の少女をフレーム内に収め、走り回らないようにする能力と理解できます。一方、長期注意とは、動きの中でビデオ内の要素が失われたり変形したりしないようにする能力です。 豊富さとは、AI にも独自のロジックがあり、テキストプロンプトがなくても適切な詳細を生成できるという事実を指します。 上記の側面において、市場にあるほとんどの AI ビデオ ツールは要件を完全に満たすことができず、さまざまな企業が絶えずソリューションを提案しています。 例えば、動画におけるキャラクターの一貫性という重要な側面に関して、孟氏とケリング氏は、テキストベースの動画を画像生成動画に置き換えることを考案しました。これは、ユーザーがまずテキストから画像を生成し、それらの画像を使って動画を作成するか、あるいは1枚か2枚の画像を直接提供し、AIがそれらを繋ぎ合わせてダイナミックな動画を作成することを意味します。 「しかし、これは新たな技術的ブレークスルーではありません。画像ベースの動画はテキストベースの動画よりも生成が容易です」と張衡氏は「Focus」誌に語った。テキストベースの動画の原理は、AIがまずユーザーが入力したテキストを解析し、一連のシーン説明に分解するというものだ。これらの説明はテキストに変換され、さらに画像に変換され、動画のキーフレームとなる。これらの画像を繋げることで、アクションのある連続した動画が作成される。一方、画像ベースの動画では、基本的に特定の画像が与えられ、それを模倣することで、生成された動画は画像に写っている人物の顔の特徴を維持し、主人公の一貫性を保つ。 彼はまた、現実世界のシナリオでは、テキストでは視覚的な詳細を表現する能力に限界があるため、画像生成動画の方がユーザーの期待に応えることができると述べました。画像を参照することは動画生成に役立ちますが、まだ商業的に実現可能ではありません。直感的に言えば、画像生成動画の上限は5秒です。10秒を超えると、コンテンツの繰り返しや構造の歪み、品質の低下などにより、意味が薄れてしまう可能性があります。 現在、完全に AI のみで制作されていると主張する多くの短編映画では、実際には画像から動画、または動画から動画への変換が使用されています。 動画の最終フレーム機能も画像ベースのビデオを使用しています。「固定フォーカス」機能は特別にテストされており、合成の過程でキャラクターが歪んだり変形したりしています。 サイラス氏はまた、動画には連続性が求められ、画像から動画への変換をサポートする多くのAI動画ツールは、単一フレームの画像から後続の動作を推測していると述べた。その推測が正しいかどうかは、現状では運次第だ。 各社は主人公の顔の特徴の一貫性を実現するために、データ生成だけに頼っているわけではないと理解している。張恒氏によると、ほとんどのモデルは元々の基盤となるDIT(デジタル情報技術)モデルをベースに、ControlVideo(ハルビン工科大学とHuawei Cloudが提案した制御可能なテキスト動画生成技術)などの様々な技術を重ね合わせることで、AIが主人公の顔の特徴をより深く記憶し、動きの中で顔が大きく変化しないようにしているという。 しかし、まだ試行段階であり、技術を追加しても文字の一貫性の問題は完全に解決されていません。 III. AIビデオの進化が遅いのはなぜでしょうか?AI分野では現在、米国と中国で最も白熱した議論が繰り広げられています。 「2023年世界で最も影響力のあるAI学者」(以下、「AI2000学者」リスト)に関する報告書によると、2020年から2023年の4年間で蓄積された「AI2000学者」リストに掲載された1,071の機関のうち、米国は443機関、次いで中国は137機関であった。2023年の「AI2000学者」の国別分布では、米国が最も多く選出され、合計1,079人で世界全体の54.0%を占め、次いで中国が280人であった。 過去 2 年間で、AI はテキストから画像、テキストから音楽への変換分野で大きな進歩を遂げたほか、改善が最も難しい分野である AI ビデオでも大きな進歩を遂げました。 先日開催された世界人工知能会議において、易天資本のパートナーである楽元氏は、動画生成技術は過去2~3年で予想をはるかに上回る進歩を遂げたと公に述べました。シンガポールの南洋理工大学の劉子偉助教授は、動画生成技術は現在GPT-3の段階にあり、成熟期にはまだ約6ヶ月かかると考えています。 しかし、LONGYUANは、大規模な商用化を支えるには技術レベルがまだ不十分であると強調した。言語モデルに基づくアプリケーション開発に用いられる方法論と課題は、ビデオ関連の応用分野にも適用可能である。 今年初めのSORAの登場は世界に衝撃を与えました。トランスフォーマーアーキテクチャの新しい拡散モデルDiTを基盤として、拡散・生成技術の更なる飛躍を遂げ、画像生成の品質とリアリティを向上させ、AI動画に大きな飛躍をもたらしました。サイラス氏によると、現在、国内外のほとんどのテキスト動画は同様の技術を採用しています。 現時点では、基盤技術に関しては、基本的に各社が共通の認識を持っています。各社ともこれに基づいた技術革新を模索していますが、製品機能を充実させるためのトレーニングデータに重点を置いています。 ByteDance の DreamWorks と Morph AI の Morph Studio を使用する場合、ユーザーはさまざまなデータセットに基づいてビデオのカメラ移動方法を選択できます。 「これまで、トレーニングに使用されていた画像は比較的シンプルで、主に画像内に存在する要素を注釈付けするもので、それらの要素を撮影するためにどのレンズが使用されたかは明記されていませんでした。このギャップに多くの企業が気づき、レンズの特徴を補完するために3Dレンダリングされた動画データセットを使用しています」と張衡氏は述べた。張氏はさらに、現在、データは映画・テレビ業界やゲーム会社からのレンダリング画像から取得されていると付け加えた。 「固定焦点」レンズでもこの機能を試してみましたが、レンズの変化はあまり目立ちませんでした。 Soraや類似のシステムがGPTやMidjourneyよりも開発が遅いのは、タイムラインが追加されたことと、ビデオモデルのトレーニングがテキストや画像モデルのトレーニングよりも難しいことが原因です。「利用可能なビデオトレーニングデータはすべて使い果たしており、トレーニングデータセットのシリーズを作成するための新しい方法も検討しています」と張恒氏は述べています。 さらに、各AI動画モデルにはそれぞれ独自の強みとスタイルがあります。例えば、快手(Kuaishou)のKelingが作成したムックバン動画は、大量のデータに支えられているため、より優れています。 Shiliu AIの創業者であるShen Renkui氏は、AIビデオ技術にはテキストからビデオ、画像からビデオ、ビデオからビデオ、そしてアバターからビデオが含まれると考えています。外見や声をカスタマイズできるデジタルアバターはマーケティング分野に応用され、商用利用レベルに達しています。しかし、テキストベースのビデオは、精度と制御性の問題を解決する必要があるとしています。 現時点では、DouyinとBonaが共同制作したAI SF短編ドラマ「三星堆:未来黙示録」であれ、KuaishouがオリジナルプロデュースしたAIファンタジー短編ドラマ「山海奇景:分裂波」であれ、主に大手モデル会社が映画・テレビ制作チームとの協力を積極的に模索し、自社のテクノロジー製品を宣伝するニーズを抱えており、作品はまだニッチな領域から抜け出せていない。 短編動画の分野では、AI の道のりはまだ長く、ハリウッドを打ち負かしたと断言するのは時期尚早です。 著者:王陸 出典:WeChat公式アカウント:「Fixed Focus(ID:dingjiaoone)」 |