Taikiの創成日記のテーマ
#AI家庭教師開発

AI家庭教師を作ってみてわかった「AIの偏り」の正体(推測)

AI家庭教師を作ってみてわかった「AIの偏り」の正体(推測)のサムネイル

友人の協力のもとAI家庭教師を作っています。

NotebookLMに大量の資料を入れ、Gemでロードして、
そこから問題を出してもらう仕組みです。

ここまでは、かなりうまくいきました。
ですが――
ある問題が出てきました。

問題が「偏る」

満遍なく問題を出してほしいのに、
どうしても特定の分野に寄ってしまう。

・同じ問題が良く出る
・「重要」のタグを張ったのに全く出てこない問題がある

なぜなのか。
明確な答えはわかりません。
ですが、いくつかの仮説があります。

仮説①:AIは「重要そうなもの」を優先している

大規模言語モデル(LLM)は、内部的には「確率」で動いています。

つまり、
「それっぽいもの」
「出現頻度が高いもの」
「文脈的に関連性が高いもの」
を優先しやすいわけです。

NotebookLMに大量の資料を入れた結果、
AIは「よく出てくる概念」や「強調されているテーマ」を
“重要だ”と判断している可能性があります。

その結果、出題が偏る。
これはAIのバグというより、AIの特徴に近く、データ整理の手法の再検討が必要かもしれません。

仮説②:検索+生成の偏り

NotebookLMやGeminiは、単純なランダム出題ではありません。

おそらく内部では

  1. 文脈検索(Retrieval)
  2. 生成(Generation)

が行われています。

この「検索部分」が特定の文脈を優先してしまうと、
生成される問題も自然と偏る。

つまり、

AIが間違っているのではなく、
取りに行っている情報が偏っている

可能性がある。

仮説③:ランダム性が本当のランダムではない

人間は「ランダム=均等」と思いがちです。

でもAIのランダムは、確率分布に従った揺らぎです。

例えば、
60%の確率でA分野が出やすい状態なら、
体感ではかなり偏って感じます。

しかも、モデルは「安定した回答」を好む傾向があります。
そのため、出し慣れた形式を繰り返す可能性があります。

仮説④:プロンプト設計の問題

実はこれが一番怪しいかもしれません。

「ランダムに満遍なく出して」という曖昧な指示は、AIにとって曖昧です。
AIは「均等」という概念を厳密には持っていません。

例えば、

  • 各単元から同数出題
  • 難易度を3段階で均等
  • 出題履歴を記録して未出題を優先

ここまで具体化しないと、AIは“感覚的な均等”で処理します。
そしてそれは、人間の期待とはズレる。

仮説⑤:Geminiの内部最適化

これは完全な推測ですが、

Geminiは「学習効果が高そうな問題」を内部的に選んでいる可能性もあります。

つまり、

・理解確認しやすい問題
・説明しやすい問題
・一般的な例題

を優先しているかもしれない。

だとすれば、
AIは“効率最適化”をしている。

しかし、家庭教師としては偏りなく触れることも重要です。
ここにズレが生まれる。

AIは万能ではない。設計がすべて。

今回わかったこと。

AIは
「何でも均等に出してくれる魔法の存在」
ではない。

AIは

  • 入れた情報に影響され
  • 指示の精度に影響され
  • 内部アルゴリズムに影響される

つまり、

データ整理も含めた設計者の思考がそのまま反映される。
これはAI家庭教師を作っていて本当に強く感じています。

これからやること

対策として考えているのは:

  • タグを付与する
  • 明示的に配分比率を指定できるデータの形に変える
  • ランダム性を強制するロジックをプロンプト外で持つ

AIに任せきらない。
AIと一緒に設計する。

AIを作ると、AIの限界が見える

使う側のときは、「AIってすごい」で終わります。

でも、作る側に回ると
「AIって、思ったより素直」だと気づきます。

偏るのは、AIが悪いのではなく、
設計が曖昧だから。

AI家庭教師を作ることは、
同時に “人間の曖昧さ”と向き合うこと なのかもしれません。

Top