近年、AI技術は飛躍的に進歩し、日常生活でもますますAIを活用する機会が増えています。特に「ChatGPT」をはじめとする生成AI(ジェネレーティブAI)は、テレビ番組やSNSでも話題になっていることから興味を持っている人も多いのではないでしょうか。
また、生成AIを用いたサービスは誰でも簡単に使えるものが多く、仕事や生活をサポートする頼もしいパートナーになっています。
しかし、生成AIという言葉を聞いたことはあるものの、実際にどんなものなのかイメージが湧かない人もいるはず。
そこで、今回は生成AIとは何なのか、その意味や仕組みを種類やできることも交えわかりやすく解説します。サイトやアプリなど、代表的な生成AIサービスやその使い方も紹介するので、ぜひ参考にしてください。
生成AI(ジェネレーティブAI)とは?
生成AI(ジェネレーティブAI)とは、学習したデータをもとに新しいデータを生成するAI(人工知能)の一種です。その特徴は、ゼロから新しいものを創造できる点です。
生成AIの研究は数十年以上前から行われていましたが、実用化にはなかなか至りませんでした。しかし近年では、機械学習の進歩やコンピュータ処理能力の向上に伴い、その研究は驚くべきスピードで進展しています。
2022年には「Imagen」や「Stable Diffusion」といった画像生成AI、さらには「ChatGPT」といったチャットボットサービスがリリースされ、生成AIの実用化が実現しました。
以降では、生成AIへの理解に欠かせない下記2つの技術を解説します。
AI(人工知能)とは?
AIは「Artificial Intelligence」の略で、日本語に訳すと「人工知能」です。その定義は明確に定められているわけではありませんが、一般的には「機械によって人間の脳の認知や判断を模倣し、実現する技術」として知られています。
現代では、AIを活用したシステムやサービスが世界中で提供されています。実際、日常生活でAIを利用している人は多いのです。
身近な例としては、スマートフォンの音声認識機能や、購入履歴をもとにおすすめ商品を提示するレコメンデーション機能などが挙げられます。
機械学習とは?
機械学習は、データを与えることでコンピュータ自身がルールやパターンを学習する技術です。AIに何かを判断させるためには、ルールやパターンが必要です。
機械学習には、下記の手法があります。
- 問題と答えを与えて機械に学習させる「教師あり学習」
- 問題のみ与える「教師なし学習」
- 機械自体に試行錯誤させる「強化学習」
また、機械学習のうちニューラルネットワークを利用するものは「ディープラーニング」と呼ばれます。ニューラルネットワークとは人間の神経細胞の仕組みを数学的に表現したモデルであり、AIのパターン認識に広く活用されています。
生成AIも、これらの手法を用いて「与えられた入力に対してどんな出力を生成するのが適切か」を学習します。そして、学習したルールやパターンをもとに文章や画像を生成します。
生成AIに使われている主な技術
これまで、生成AIの実現に向けさまざまな機械学習モデルが開発されました。モデルとは、データからパターンや関係性を学習し、新しいデータを予測または生成するための数学的な表現やアルゴリズムのことです。
ここでは、生成AIに使われている主な技術を5つにまとめて紹介します。
GAN(敵対的生成ネットワーク)
GAN(敵対的生成ネットワーク)は、主に画像生成AIに使われるモデルであり、生成AIと識別AI(何の画像かを認識するためのAI)を同時に学習させる点が特徴です。このモデルでは、本物のデータと生成AIが生み出した偽のデータを識別AIに区別させます。
生成AIは偽物と気づかれないように、識別AIは偽物を見抜けるようにお互いに競い合いながら、双方の品質を高めていきます。
VAE(変分オートエンコーダー)
VAE(変分オートエンコーダー)は、訓練データの特徴を捉えて、それをもとに似たデータを生成することを学習する手法です。画像、音声、テキストなどさまざまなデータを生成する際にVAEが利用されています。
Transformer
Transformerは、2017年にGoogle社によって発表された機械学習モデルであり、主に自然言語処理に使用されます。
自然言語を解釈する際には、文脈や語順が重要な要素となります。Transformerはこういった順番や時系列に関するデータの処理に優れています。
RNN(リカレントニューラルネットワーク)
RNN(リカレントニューラルネットワーク)は、Transformerと同じく時系列データに特化したモデルです。Transformerとの違いは、過去の入力データに基づいて出力が生成されるという点です。
例えばテキスト生成の場合、過去に入力された単語情報を保持しながら、次の単語を予測できます。また、株価予測や気象予測など、過去のデータから将来を予測する分野でも活用されています。
自己回帰モデル(ARモデル)
自己回帰モデル(ARモデル)は、過去のデータをもとに将来の値を予測するモデルです。この点はRNNに似ています。
ARモデルは、シンプルな構造を持ち、実装が比較的容易であるという特徴があります。その一方で
- 複雑な依存関係への弱さ
- 外れ値(他の値から大きく外れた値)に敏感
といったデメリットがあります。
生成AIでできること
ここからは、生成AIでできることを8つにまとめて紹介します。
画像の生成
テキストや画像データをもとに、お題に沿った画像を生成します。例えば、”A dog eating food”(餌を食べている犬)のように指定して、実際に出力された画像がこちらです。
完璧ではないものの、何の絵か一目でわかるクオリティのものが1分ほどで生成されました。詳細な条件や指示を入力すれば、より高精度な画像が生成されます。
SNSのアイコン作成や、Webデザインの補助として活用されています。
画像生成AIサービスの代表例
画像生成AIを利用した代表的なサービスとして、下記が挙げられます。
サービス名 | 特徴 |
Midjourney | Discord上で利用でき、使い方がわかりやすい |
DreamStudio | 詳細な指示ができ、高精度の画像を生成できる |
Photoshop | 画像にないものを追加したり、あるものを削除したりできる「生成塗りつぶし」を利用できる |
お絵描きばりぐっどくん | LINEから気軽に画像生成AIを利用できる |
AIピカソ | スマホアプリで画像を生成でき、アバターなどとして利用できる |
テキストの生成
プロンプトに入力した内容に対しての回答を生成します。代表的なテキスト生成AIサービスである「ChatGPT」に、テキスト生成AIについて質問すると、下記のようなやり取りになりました。
まるで人間と会話しているような自然なやり取りですよね。このように、前後の文脈を読み取って自然な文章を作成できる点が、テキスト生成AIの特徴です。
テキスト生成AIサービスの代表例
テキスト生成AIを利用した代表的なサービスとして、下記が挙げられます。
サービス名 | 特徴 |
ChatGPT | GPT3.5が搭載された無料版と、より高性能なGPT4が搭載された有料版(月額20$)がある |
Notion AI | ビジネスアプリのNotionと組み合わせて利用できる |
GrammarlyGo | 英文作成アシスタントのGrammarlyにテキスト生成AIが搭載され、より使いやすくなった |
Jasper | ライティングに特化した高性能AI |
動画の生成
動画生成AIは、プロンプトへの入力から動画を生成する技術です。使い方は画像生成AIに似ており、例えば「眠っている猫」と指示すると、それに応じた動画が出力されます。
動画生成AIはまだ発展途上の技術であり、2023年6月現在では人間が作成した動画と同等以上の品質を実現することは難しい状況です。とはいえ成功事例もあり、下記のニュースでは本物の人間が踊っているかのような動画がAIによって生成されたと報じられています。
今後開発が進んでいけば、人間に匹敵またはそれ以上のクオリティでAIが動画生成するようになるかもしれませんね。
動画生成AIサービスの代表例
動画生成AIを利用した代表的なサービスとして、下記が挙げられます。
サービス名 | 特徴 |
Gen-2 | テキストや画像ファイルから動画を生成する |
Vidon.ai | ブログ記事のURLを入力すると、その記事の宣伝映像を生成する |
TrueSync | 役者の口の動きを吹き替え音声に合うように修正する |
音声の生成
音声生成は、テキストを音声に変換する技術です。人間の声に近い音声を合成できるため、自然な読み上げが実現できます。
従来は声優を起用して提供していたサービスも、音声生成AIで代用できればコストや開発期間を抑えられます。実際、音声案内サービスやオーディオブック制作などの分野では、音声生成AIを活用したサービス提供が行われています。
音声生成AIサービスの代表例
音声生成AIを利用した代表的なサービスとして、下記が挙げられます。
サービス名 | 特徴 |
IBM Watson Text to Speech | さまざまな言語や音声に対応しているほか、自分の声を録音してモデル化する「カスタム音声」を搭載している |
Text-to-Speech | Google Cloud社が提供するサービスで、読み上げスピードやピッチを自在に調整できる |
Amazon Polly | Amazon社が提供するクラウドサービス「AWS」上で音声生成AIを利用できる |
Koemotion | 読み上げるテキストを入力し、喜び、悲しみなどの感情を選択するだけで手軽に音声を生成できる |
AITalk | 日本語の音声生成に強く、子どもや大人、関西弁など、さまざまな設定が用意されている |
音楽の生成
音楽生成AIは、既存の音楽からジャンルやスタイルを学習し、それをもとに新しい音楽を生成する技術です。
この技術により、誰でも短期間で作曲できるようになりました。例えば、ゲームのBGM制作に音楽生成を利用すれば、従来よりも早く低コストに開発が行えます。
また、作曲家やミュージシャン自身も音楽生成AIを活用しています。アメリカのシンガーソングライターであるTaryn Southern氏は、2018年に全曲をAIで作成したアルバム「I AM AI」をリリースしました。
音楽生成AIサービスの代表例
音楽生成AIを利用した代表的なサービスとして、以下が挙げられます。
サービス名 | 特徴 |
Amper Music | アカウント登録するだけで無料で利用できる |
SOUNDRAW | 無料でトライアルできるほか、有料プランを利用すれば生成した楽曲を商用利用できる |
AIVA | 生成された曲の編集機能が優れており、自分でもアレンジしやすい |
Amadeus Topline | スマートフォンで使える音楽生成アプリで、操作性がシンプル |
ecrett music | シンプルなUIを採用しているため、音楽の知識がなくても簡単に編曲できる |
デザインの生成
生成AIは、デザイン分野でも活用されています。ポスターや広告をはじめとするグラフィックデザインや、Webサイトのレイアウトや配色など、幅広い領域で使われています。
デザイン生成AIの出力結果は、人間が作成するデザインと比べるとまだ劣る部分もありますが、デザイナーたちの間で需要があります。例えば、アイデアを発想するために利用したり、コーディングなどをAIに任せて自身はクリエイティブな業務に専念できます。
デザイン生成AIサービスの代表例
デザイン生成AIを利用した代表的なサービスとして、下記が挙げられます。
サービス名 | 特徴 |
Canva | 使っていくうちにパーソナライズされていき、個人の趣味嗜好に合わせたデザインが生成される |
Microsoft Designer | レイアウトやキャッチコピーを自動で提案してくれるため、デザイン初心者でも扱いやすい |
Designs.ai | テキストを入力すると、何千ものデザインを瞬時に生成する |
3Dモデルの生成
3Dモデルとは、建築設計や、ゲーム、映画などに利用される立体的なCGです。生成AIは2Dアートだけでなく、3Dモデルも生成できます。
近年はメタバースの登場により3Dアバターの需要も高まっており、手軽に3Dモデルを生成できるようになればメタバースの人気も高まっていくでしょう。
3Dモデル生成AIサービスの代表例
3Dモデル生成AIを利用した代表的なサービスとして、下記が挙げられます。
サービス名 | 特徴 |
DreamFusion | 文章から3Dモデルを生成するいびつな形状になることが少なく、クオリティが高い |
Magic3D | アメリカの大手半導体メーカーのNVIDIA社が開発したテキスト入力と画像入力両方に対応している |
Kaedim | 画像ファイルを入力すると、それを3Dモデル化する |
創薬
創薬とは、まだ存在しない薬を新たに作り出すことです。世の中に無数にある化合物や化学物質の中から、薬となる組み合わせを見つけるという難しい仕事です。
近年、この創薬にも生成AIを利用しようという動きがあります。その理由は、生成AIは大量のデータから学習することが得意で、化合物や化学物質の中から有効な組み合わせを算出するのに適しているためです。
従来では、1つの薬を生み出すために10億円規模の多大なコストと十数年という長い時間が必要でした。AIの活用でこれらが短縮されれば、人類全体に大きな利益をもたらすことができるかもしれません。
創薬AIサービスの代表例
株式会社データグリッドは、リード化合物(新薬候補となる化合物)の探索やリード最適化を目的とした創薬AIの「DATAGRID DrugFinder」を開発しました。ユーザーが希望する条件でパラメータを入力すると、それに適したリード化合物を自動で探索します。
生成AIを活用する際の注意点
生成AIを利用することで、作業時間の短縮やコスト削減といったメリットを得られます。しかし、利用する上では注意が必要なポイントもあります。
間違った情報を発信してしまうリスクや、最悪の場合、気づかないうちに法律に違反するリスクも考えられます。生成AIを活用する際は、下記の点に注意してください。
品質にムラが出る点を許容する
生成AIが生成するコンテンツの品質にはムラが出ます。ムラが出るとは、同じ入力を行ってもそのときどきによって、品質が高かったり低かったりしてばらつきがあるということです。
これは、生成AIの特性上、避けられないことです。生成AIは大量のデータセットを学習に使いますが、そこには一定数の誤ったデータも含まれています。また、生成AIは確率的なモデルを使用しているため、同じ入力に対しても出力は微妙に異なることがあります。
重要なのは、品質にムラが出るということをよく理解した上で、生成AIを利用することです。生成されたものをそのまま使用するのではなく、誤りがないかを検証し必要に応じて修正を加えることで、コンテンツの品質を安定させられます。
生成物が「著作権侵害」に当たるケースもある
場合によっては生成物の利用が「著作権侵害」に当たることもあるので、注意が必要です。例えば、誰かが書いたイラストを生成AIに入力として与え、その結果できた生成物が元のイラストに酷似している場合、著作権侵害に当たる可能性があります。
これを避けるためには、生成物が他人の著作物に酷似していないかを確認したり、オリジナル要素を加えたりするなどの工夫が必要です。または、その著作物の利用許可を取得しておくのも一つの手段です。
仕様が最新版か適時確認する
AI技術は日々進歩しています。利用するサービスの新しい機能や改善点についてチェックするように心がけましょう。
最新版ではない生成AIを使い続けることには、次のようなデメリットがあります。
- 新しく搭載された便利な機能を使えない
- セキュリティ上の脆弱性やプライバシー問題に対応できていない可能性がある
- 不具合が修正されない
生成AIサービスの更新に気づくために、常に最新の情報を得られる仕組みを作っておくとよいでしょう。例えば、SNSでそのサービスの公式アカウントをフォローしたり、公式サイト更新時に通知が届くよう設定したりすると見逃しを避けられます。
まとめ
この記事では、生成AIとは何なのか、その意味や仕組みを種類やできることも交えて解説しました。
今後も生成AIの開発は進んでいき、どんどん便利なサービスが登場するでしょう。興味を持った人は、ぜひ一度自身で利用してみることをおすすめします。