動画で物語を語れますか?これが現実に起こりそうです。 OpenAIの大規模RAWテクスチャ動画モデル「Sora」の発表を受けて、国内企業が相次いでこの分野に参入し、国産大規模RAWテクスチャ動画モデルの開発が加速している。 過去6か月間、AI生成ビデオの開発は断続的に進歩してきました。 国産初のビデオビッグデータモデルを標榜するViduと、その後ByteDance、Tencentなどの国産メーカーが発表したビデオ生成モデルは、たびたび外部から注目を集めてきた。 最近、国産のビデオ生成モデルが新たに参入した。快手(クアイショウ)のビデオ生成モデル「克玲(クリン)」の公式サイトが開設された。 快手科霊大模型は21日、大型アップデートを発表した。画像から動画への機能が正式にリリースされ、静止画像を5秒間の動画に変換する機能に対応し、プロンプトテキストを通じて画像内の物体の動きを制御できるようになった。同時に、動画の継続機能もリリースされ、ワンクリックでの継続や、生成された動画の複数回の連続継続が可能になり、動画の最大長さは約3分となった。 これまで各社が発表してきた、主に動画の披露に重点を置いた大型モデルと比べ、今回発表されたKeling大型モデルは効果の面ではSoraに匹敵するだけでなく、KuaishouのKuaiyingアプリでの招待テストも受け付けている。 Kuaishouによると、Keling Big ModelはKuaishouのAIチームが独自に開発した製品で、Soraと同様の技術的アプローチを採用し、複数の自社開発技術革新を組み合わせています。生成される動画の解像度は1080p、最長2分(30fps)です。また、自由なアスペクト比をサポートしています。 さらに、公式声明では、ケリング大型モデルは大規模な合理的な動きを生成し、それを客観的な運動法則に適合させることができると主張しています。 公式ビデオの例では、宇宙飛行士が月面を走っており、カメラがゆっくりと上昇しても、宇宙飛行士の歩き方と影はリアルで適切なままです。 ほぼ同時に、Meituは7月末に新製品「MOKI」を発売すると発表しました。この製品はMeituのQixiang Big Modelの動画生成機能をベースにしており、ユーザーがAI短編映画を制作するのに役立ちます。 しかし、大規模な言語モデルの急速な発展に比べ、ビデオ モデルは普及が遅く、業界大手の関与も不足していると主張する人もいます。 なぜそうなるのでしょうか? 大企業は興味ないんですか? 一方、Kuaishou と Meitu は、大規模言語モデルをめぐる前回の競争では比較的目立っていませんでした。 ビデオ大型モデルトラックにおいて、これら 2 つの会社の最大のメリットは何でしょうか? これに対して、北京ビジネスデイリーの記者ウェイウェイとシュ・レが議論し、このサルは次のように信じている。 まだ「大学入試」の準備段階にある大企業は、「ポスドク」のポジションを直接的に追求することはありません。 動画制作は、PowerPointプレゼンテーション用の画像をたくさん作成することではありません。大企業はこの分野に注力しようとはしておらず、実用的ではありません。ただ単に力を見せつけるためのものなのです。 結局のところ、ビデオ生成は、一連の AI 描画をつなぎ合わせてアニメーションにすることではありません。 イメージの一貫性、描写の忠実性、光と影の分け方、場面の構成など細部まで考慮するほか、プロットを理解し再現する力も求められます。 これらすべてには、ビデオの構造、コンテンツの分析、撮影技術、物語の手法など、複数の垂直分野にわたる詳細な学習が必要です。 その難しさは、データの蓄積とユーザーによるエラー修正に依存するチャット、描画、チェス特化の難しさよりもはるかに高くなります。 映画やテレビ業界の巨匠でさえミスを犯すことは少なくないのに、まだ「大学入試段階」にある人工知能に映画を制作させることの難しさは容易に想像できる。 しかし、Kuaishou と Meitu は、たとえ単純な展示であっても、力を発揮する必要がある。 快手にしても美図にしても、動画モデル競争における彼らの最大の優位性は、単に人工知能がディープラーニングを行うための豊富な「学習素材」を保有していることだ。 これらの「学習教材」に頼ることで、著作権に関する問題をある程度回避できます。さらに、長年にわたる動画分野におけるコンテンツの蓄積、垂直セグメンテーション、タグ付けを通じて、大規模モデルはより優れた知識の「検索」が可能になり、アルゴリズム設計においても一定レベルの動画専門知識を備えています。 しかし、それだけではありません。技術的には、人工知能アルゴリズムの独自の蓄積がまだ欠けています。 さらに、大規模なビデオモデルが成熟したとしても、映画やテレビ業界で大きな進歩を遂げることは難しいでしょう。 短いドラマでも、広告でも、長いビデオや映画でも、すべて「超大作特殊効果」が使われています。 しかし、最終的に観客を惹きつけるのは、その内容(脚本からカメラワーク、俳優の演技まで)です。 これらが大規模な商業収益化の鍵となります。 私の個人的な意見としては、大規模なビデオモデルの方がアニメーション分野でビジネスチャンスを見つける可能性が高いかもしれません。 |