通常プログラミング

M7バックログ草案プロンプト

ポケモン対戦AI開発プロジェクトの強化学習プロセス改善タスク作成

ポケモン対戦AIプロジェクトにおける強化学習プロセスの改善を目的としたタスク作成

強化学習を用いたポケモン対戦AIを開発するプロジェクトにおいて、次のマイルストーンである強化学習プロセスの改善(M7)を進めるためのバックログを作成します。すでに基本環境や自己対戦学習環境は構築済みであり、ここから強化学習モデルや学習プロセスの改善に関する具体的なステップを定義し、それぞれのステップが目標や達成条件を満たすようにします。ステップは細分化し、ローカルでテスト可能な形にします。

プロンプト本文

#プロジェクト名: Maple (Machine Assisted Pokémon Learning Environment)  
#目的: 
* ポケモン対戦 AI の開発
* Python・強化学習・Gymnasium・WebSocket の知識を身に付ける。

#役割:
*あなたは本プロジェクトの プログラマー兼指導者 として、コードの実装や設計の助言を行う。

#現状のスキルセット: 
*Python および tkinter で簡単なアプリ開発経験あり  
* AI／強化学習／バージョン管理／WebSocket は未経験

#開発方針 
* 開発者は 1 人 
* poke-env と Showdown! を利用 
* ローカルに Showdown! サーバ構築済み 
* Gymnasium を用いた強化学習 
* 第 9 世代シングルバトル（6→3 選出、gen9bssregi ルール）
 * 手動登録パーティ（config/my_team.txt）を使用 
* 現在はランダムで 3 匹選出（今後ロジック実装予定） 
* 行動選択は AI が担当
 * 強化学習はローカルで実施 
* 2エージェントを用いた相互自己対戦 
* 不完全情報ゲームとしてクライアント—ホスト通信を実装

#マイルストーン概要:
M1.基礎環境構築完了  
M2.基本対戦実行可能  
M3.状態・行動空間定義とルールベース AI  
M4.強化学習基本ループ実装  
M5.初回強化学習モデル学習と評価  
M6.自己対戦学習環境構築  
M7.RL モデル・学習プロセス改善  
M8.思考時間を指定して方策を決定する一定レベルの AI 完成（ゴール）
M9.オンラインでのshow-down対戦への参加
M10.Switch実機を用いて対戦画面から対戦情報収集→環境のbattleオブジェクトへの反映  
# 現在の状況:
- M6を完了し、強化学習アルゴリズム(reinforce,ppoのみ)を切り替えて相互自己学習を行い、重みファイル.pt,ログファイルを出力できる環境を整えた

#次のステップ: 
M7を開始する

# 命令 :

- 以下の条件に沿ってM7を進めるためのバックログ(M7_backlog.md)を作成して 
-- 1つのステップは1つの関心ごとに集中
-- ステップは目標、達成条件が明確である 
-- 1つのステップはテスト可能である(テストはローカルでターミナル上から行う) 
-- codexが実装を補助できるようにコンテキスト長に配慮し、ステップはできる限り小さく分割する（総数が増えても良い） 
-- 編集対象となるファイルを明記する

-- 使用する技術要件を併記する

#プロジェクト名: Maple (Machine Assisted Pokémon Learning Environment)
#目的:
* ポケモン対戦 AI の開発
* Python・強化学習・Gymnasium・WebSocket の知識を身に付ける。

#役割:
*あなたは本プロジェクトのプログラマー兼指導者として、コードの実装や設計の助言を行う。

#現状のスキルセット:
*Python および tkinter で簡単なアプリ開発経験あり
* AI／強化学習／バージョン管理／WebSocket は未経験

#開発方針
* 開発者は 1 人
* poke-env と Showdown! を利用
* ローカルに Showdown! サーバ構築済み
* Gymnasium を用いた強化学習
* 第 9 世代シングルバトル（6→3 選出、gen9bssregi ルール）
* 手動登録パーティ（config/my_team.txt）を使用
* 現在はランダムで 3 匹選出（今後ロジック実装予定）
* 行動選択は AI が担当
* 強化学習はローカルで実施
* 2エージェントを用いた相互自己対戦
* 不完全情報ゲームとしてクライアント—ホスト通信を実装

#マイルストーン概要:
M1.基礎環境構築完了
M2.基本対戦実行可能
M3.状態・行動空間定義とルールベース AI
M4.強化学習基本ループ実装
M5.初回強化学習モデル学習と評価
M6.自己対戦学習環境構築
M7.RL モデル・学習プロセス改善
M8.思考時間を指定して方策を決定する一定レベルの AI 完成（ゴール）
M9.オンラインでのshow-down対戦への参加
M10.Switch実機を用いて対戦画面から対戦情報収集→環境のbattleオブジェクトへの反映
# 現在の状況:
- M6を完了し、強化学習アルゴリズム(reinforce,ppoのみ)を切り替えて相互自己学習を行い、重みファイル.pt,ログファイルを出力できる環境を整えた

#次のステップ:
M7を開始する

# 命令 :

- 以下の条件に沿ってM7を進めるためのバックログ(M7_backlog.md)を作成して
-- 1つのステップは1つの関心ごとに集中
-- ステップは目標、達成条件が明確である
-- 1つのステップはテスト可能である(テストはローカルでターミナル上から行う)
-- codexが実装を補助できるようにコンテキスト長に配慮し、ステップはできる限り小さく分割する（総数が増えても良い）
-- 編集対象となるファイルを明記する

-- 使用する技術要件を併記する

入力項目はありません

「プロンプトを生成」ボタンを押してください