ほぼテク 6月12日ChatGPTの言語理解力を革新する「大規模言語モデル」を徹底解説？

こんにちは、ほぼテク読者の皆様、いつもありがとうございます！
SRA東北の我妻裕太です。

今回は、世界を変えたと言われている私の大好きなChatGPTの根底にある大規模言語モデル（LLM：Large Language Model）について解説してきたいと思います。

何かの参考になりましたら幸いです。

本日のゴール「AIが人間の言語を学習する大規模言語モデルを理解する！」

AI技術の進化は、この数年科学技術の世界に革命をもたらしています！今回はその中でも特に注目を集めている「大規模言語モデル」について、その基本的な概念と動作原理を解説していきます！

大規模言語モデルとは何か

大規模言語モデルは、人間の言語を理解し、その知識を利用して人間のように文章を生成することができるAIです。この大規模という言葉は、大げさな感じがしますが、実際に学習に使用されるデータ（特にテキスト）が非常に多いことを示しています！

大規模言語モデルの学習過程では、何百万もの本やウェブサイトのテキストを「読む」ことで、言語の文法、単語の意味、それらがどのように組み合わさって意味を成すのかを学びます。そのデータの中には地理、歴史、科学など世界の知識も含まれます！

学習と予測のプロセス

では実際に大規模言語モデルがどのように学習をして、どのように予測するのかを超概要レベルで説明します。以下はライトにまとめていますが、実際はかなり難しく複雑な仕組みになっています。

1.データ収集

AIが学習を始める前に、まず必要なのが大量のテキストデータです。このデータは、インターネットだけでなく、書籍、学術論文、ニュース記事などの広範なジャンルから収集されます。

2.学習

学習過程では、大規模言語モデルはTransformerと呼ばれるネットワークアーキテクチャを使用します。このネットワークは元々エンコーダとデコーダから成り立っていましたが、GPTの場合はデコーダの部分だけを使用します。このネットワークは後述する「自己注意機構」を使って、文中の各単語が他の単語とどの程度関連しているかを見つけ出します。具体的には、クエリ、キー、およびバリューという３つの概念を用いて関連性を計算します。その結果、AIは長い文章を理解し、それが持つ意味を理解します。

ではここでもう少しトランスフォーマー(Transformer)について解説いたします！

トランスフォーマー(Transformer)は、”Attention is All You Need”という論文で2017年にGoogleから発表された、自然言語処理（NLP）のための深層学習モデルです。このモデルの特徴は、RNNやCNNのような前の深層学習モデルとは異なり、全ての計算が並列に行われ、学習や予測が高速になる点です。

トランスフォーマー(Transformer)は大きく分けてEncoderとDecoderから成り立っています。しかし、GPTのような大規模言語モデルでは、主にDecoderの部分だけを使用します。

Encoder
Encoderは入力文をベクトル表現に変換します。ここでは自己注意機構（Self-Attention）という機構が利用されます。Self-Attentionは、入力文中の各単語が他の単語とどの程度関連しているかを見つけ出します。これにより、文中の各単語が他の単語とどのように関連しているか、文脈を考慮した単語の表現を学びます。

Decoder
DecoderはEncoderからのベクトル表現を元に、文を生成します。ここでもSelf-Attentionが利用されますが、加えて、Encoder-Decoder Attentionという機構も利用されます。これは、生成する単語が入力文中のどの単語と関連しているかを見つけ出す機構です。

このように、TransformerはAttentionという概念を中心に据えており、それによって長い文の中での関係性を捉え、より自然な文章を生成することができます。

このTransformerアーキテクチャは、大規模言語モデルの基礎となっており、例えばOpenAIのGPT-3などの最先端のモデルでも使われています。

以上が、Transformerの概要で、言語の理解と生成におけるこの強力なツールは、自然言語処理の領域において革新的な成果を生んでいます！

少し説明が長くなってしまいましたが、また説明戻ります！

3.予測

学習が完了した大規模言語モデルは、「生成的」なモデルであり、新しい入力に対して応答を生成することができます。ただし、生成されるテキストは学習データの統計的なパターンに基づいているため、時折、予測が不正確であるか、期待しない結果を生じる可能性があります。

以上が大規模言語モデルの基本的な説明でした。このように複雑なモデルを利用することで、AIは人間の言語を理解し、人間のような文章を生成することが可能になります。これにより、AIは私たちの日常生活やビジネスにさらに深く関与することができるようになりました。

大規模言語モデルの制約

大規模言語モデルはとても素晴らしい技術ということが分かってきたところなのですが、大規模言語モデルにも制約はあります。それは、新たな出来事やデータ（モデルが訓練された後の出来事やデータ）について知識を持つことができないという点です。また、人間のような直接的な体験や意識的な理解を持つ能力もありません。さらに、入力の文章を誤解することもあります。
こういった制約は利用する上で理解しておく必要はあるかと思います！
なんでもかんでも無敵のヒーローと思う方が多いですが、実際はそうではありません！あくまでもツールの一つです。