このプロンプトは、AIが生成した回答を10の評価軸に基づいて評価するための手順を示しています。それぞれの評価軸には重みが設定されており、評価点を基に100点満点での総合スコアを計算します。評価軸には正確性、合理性、完全性、推論の深度、一貫性、分かりやすさ、説明可能性、倫理性、創造性、適切性が含まれます。各評価の理由も記述し、最終的な評価コメントと改善点を含めます。