【GPT-3】AIに「文章」を書かせてみた!
こんにちは。データサイエンス課のTKです。
みなさん『GPT-3(ジーピーティー – スリー)』といったワードはご存じでしょうか?
GPT-3とは、アメリカのOpenAI社が開発した言語処理AI(自然言語処理モデル)の名称です。
馴染みのない方にはピンと来ないかもしれませんが、GPT-3をざっくり言えば、スマートフォンなどで使える音声認識・対話型AI(iPhone「Siri」)に近いものとイメージいただければ良いかと思います。人間の質問に対する回答をしてくれるAIです。
とはいえ、今回ご紹介する「GPT-3」は、話しかければ返事をくれる音声対話型のAIではなく、主に文章作成の能力に強みを持つ言語処理AIです。※音声認識にも対応はしています。
弊社でも「チャットボット構築」にてGPT-3の文章作成能力を活用しております。今回はそんなGPT-3の「文章作成」の凄さについて、実例をもとにご紹介させていただきます。
GPT-3概要やテーマ選定について
今回、GPT-3に書かせる文章のテーマですが、
「大リーグ・エンゼルスで二刀流の活躍をする大谷翔平選手はベーブ・ルースを超えたのか?」
と選定しました。
参照:DIGEST
テーマ選定の理由
今回テーマの「大リーグ・エンゼルスで二刀流の活躍をする大谷翔平選手はベーブ・ルースを超えたのか?」ですが、「大谷翔平選手」についての簡易的な文章は野球に少し興味がある方であれば書けるかと思いますが、「ベーブ・ルースとの比較」ともなると、メジャーリーグにも高い関心がある人でないと書くことが難しいのではないかと思い選定した次第です。
「ベーブ・ルースとの比較」は野球ファンでも意見が割れており、いまだに答えを出せていないというかなり難しいテーマでもあります。このような賛否両論あるテーマをAIが果たして上手に書いてくれるかも注目したポイントです。
GPT-3が文章生成する仕組み
GPT-3は学習したデータを基に次に出現する確率の高い単語を選択し、文章生成を行っています。
学習したデータは非営利団体であるCommon Crawlが収集したインターネット上に公開されていたWebページの内容及び、WikiTextとWikipediaの内容を基にしており、そのデータ群で学習を行わせているとされています。
その為、GPT-3に文章を書かせると、ネット上に多く掲載されている内容についての文章は精度が高く生成され、逆にネット上にほとんど載ってない情報に関しては精度の低い文章が生成されるという特徴があります。また、個人的な感想ですが、Wikipediaを用いて学習を行っている為か、文体が少し「Wikipedia風」になっているかなと感じています。
GPT-3の操作手順(Playground)
GPT-3の実行ですが、プログラミング無しに簡易的にGPT-3の文章作成ができるPlayground(プレイグラウンド)というOpenAI社が提供している環境を使用しました。※下記画像
上記の図より、今回作成した文章は以下の手順で行いました。
①「Title」:書かせたい記事のテーマを入力
②「Tags」:書かせたい記事に含ませたいワードを入力
③「Summary」:書かせたい記事の内容の説明を入力
④「Full text」:空白
⑤「Submit」 :ボタンを押下し、文章(記事本文)を生成
GPT-3に文章を書かせてみた
では、さっそくですがGPT-3が書いた文章をご紹介します!
以下がGPT-3が書いた(出力した)文章です。※原文
二刀流の選手は、日本のプロ野球では珍しく、ピッチャーとして投げたり、打者として打ったりすることができます。
大谷翔平選手は、目立った成績を残している選手です。しかし、ベーブ・ルース選手のようにメジャーリーグで活躍している選手は、ほとんどいません。
そこで、今回は、大谷翔平選手とベーブ・ルース選手のメジャーリーグでの記録比較をし、個人的見解を述べる。
・成績比較
ベーブ・ルース選手は、メジャーリーグでは、打率.342、本塁打176、打点502、盗塁61、出塁率.438という成績を残しています。
一方、大谷翔平選手は、メジャーリーグでは、打率.274、本塁打102、打点267、盗塁22、出塁率.352という成績を残しています。
ベーブ・ルース選手の方が、打率や本塁打、打点、盗塁、出塁率という点で優れています。特に、出塁率が.438というのは、メジャーリーグではかなりの高水準です。
・個人的見解
私は、大谷翔平選手がベーブ・ルース選手を超えたとは言えないと思います。ベーブ・ルース選手は、メジャーリーグで活躍している選手です。
大谷翔平選手は、まだプロ野球に慣れていないと思うので、これからも成長していくと思います。
by.GPT-3
いかがでしょうか?
ぱっと見ると、単語の意味を間違えていたり、文法的な誤りなど多少の間違いは見受けられますが「人間が考えて書いた文章にかなり近しい」と錯覚するほどではないでしょうか。
文章を書かせた感想
★Point1:意図の理解
驚いた点としてはまず、今回のテーマの指示や意図をGPT-3がしっかりと理解していた点です。
今回書かせた文章では、テーマに沿って「大谷翔平選手とベーブ・ルースはどちらが優れているのか?」という問いに対してその答え(結論)がしっかりと導けています。
結論としては「大谷翔平選手はベーブ・ルース選手を超えたとは言えない」ようですね。根拠にしっかりとデータを提示し、結論を述べているロジックも完璧です。
ただ、比較するのがメジャーリーグでの「通算」といった点にて、ベーブ・ルースが現役を引退して、大谷翔平選手はまだ現役であるという事実についてAIは理解していないようです。
また、今回は「メジャーリーグでの記録を比較」とGPT-3に指定しており、書かれた文章でも「メジャーリーグでは、打率.274、本塁打102、打点267、盗塁22、出塁率.352」といったように、見事に大谷選手の「メジャーリーグ」での通算成績と一致しています。大谷翔平選手は日本のプロ野球でもプレーしていたので、日本でのプレーを含めた成績が出てしまうかもといった心配はありましたが、「メジャーリーグだけでの成績を比較」というこちら側の意図をAIがしっかり理解してくれたことになります!
★Point2:情報の新鮮さ
現在(2022/8/4時点)での大谷翔平選手のメジャーリーグ通算ホームラン数は115本で、GPT-3が生成した文での大谷翔平選手のメジャーリーグでのホームラン数は102とありました。この102という数字は直近(2022/5月末くらい)の成績です。
つまり、出力時点でのリアルタイムデータを元に文章生成されてはいないものの、最近の情報を含んだ文章なら生成できるということがわかりました。情報鮮度に関しては、もう少し古い文章での出力になってしまうと想定していましたが、最近の情報を反映できている点には驚きですね。
まとめ
「AIとはいえ、文章を自動生成するなんて難しいのでは? 人間に勝てるのか?」と当初は少し疑いを抱いていました。しかし、実際は単に人間っぽい文章が書けるだけでなく、人が指示したテーマの意図を理解しながら、最近の情報も含めた文章を生成できるということに大変驚きました。
単語の意味を間違えていたり、文法ミスがあったりと、完璧な文章を作成するという点ではまだまだ人間の力には少々劣っているかと思いますが、ブログ記事などのライティング作業にAI技術を活用することで、ライター業務の負担を減らすなど、汎用性がある技術だということは間違いないかと思います。
この自然言語処理というAI分野はまだまだ発展途上なので、これから文章作成のAI技術がどう進化していくかがとても楽しみです!