CompTIA DataX

※実際に出題される問題とは異なります。
※類似問題を許可なく複製、転載することは一切禁止します。

Question 1　
データサイエンティストは、頻度は低いがユーザーに長時間のダウンタイムをもたらすマシン障害を予測するモデルを構築しました。すぐに故障しないと思われるマシンの予防点検を実施すると、人件費が増加します。また、定期メンテナンスセッションの追加は、顧客満足度の低下につながり、新しいバージョンのマシン購入や保証契約の更新を控えることにつながります。この計画における主な目的は、次のうちどれですか。
A. レーバーコスト（人件費）
B. ダウンタイム
C. カスタマーリテンション（顧客維持）
D. サービス品質

Question 2　データサイエンティストは、連続型変数の分布を調べていますが、データのヒストグラムから結論を導き出すことができません。より分かりやすい視覚的な要約を得るため行うべきことは、次のうちどれですか。
A. ビン（bin）の数を増やす
B. 値の範囲を下げる
C. 追加データを収集する
D. コントラストの高い色を追加する

Question 3　
データの不均衡を処理するための最良の方法は、次のうちどれですか。
A. PCA（主成分分析）
B. SMOTE（Synthetic Minority Over-sampling Technique）
C. 2項ロジスティクス回帰
D. DBSCAN（Density-Based Spatial Clustering of Applications with Noise）

Question 4
データサイエンティストは、住宅の面積（平方フィート）、築年数、種類（アパート、一戸建て住宅、ボートなど）に基づいて、消費者の電力使用量を予測するモデルを構築しています。外れ値を処理する最も適切な方法は、次のうちどれですか。
A. 非線形モデルの選択
B. 外れ値の削除
C. データセットの正規化
D. ハイパーパラメータのチューニングを行う

Question 5
データサイエンティストは、顧客チャーン（解約率）を予測しようとしています。文献レビューを実施した後、データサイエンティストは類似の状況で成功した可能性のあるいくつかのモデルを特定しました。反復的にモデル設計を選択するための最も適切な次のステップは、次のうちどれですか。
A. 文献レビューで特定されたすべてのモデルを実装し、テストセットで最も精度の高いモデルを選択する
B. 文献レビューから、最新かつ効果的である可能性が高いことから、最近発表されたモデルを選択する
C. ベースラインモデルを開発し、解釈可能性の要件を考慮しながら、より複雑なモデルを繰り返し実装して比較する
D. 最も信頼性が高く受け入れられているため、文献レビューで最も多く引用されているモデルを選択する

Question 6　
データサイエンスチームは、セールス担当者が顧客と行った商談に関するデータセットを保有しています。各商談には、セールス担当者が取った一連の行動と、顧客が購入したかどうかが含まれています。顧客の購買行動と異なる行動セットの間の相関を見つけるための最適な方法は次のうちどれですか。
A. KNN（k近傍法）
B. クラスター分析
C. 特徴の重要性チャート
D. アソシエーションルール（連関ルール）

Question 7
データサイエンティストは、住宅価格を分析し、次の分布を観察しています。

価格帯	住宅数
100,000-200,000	50
200,001-300,000	30
300,001-400,000	15
400,001-500,000	3
500,001-600,000	1
600,001-700,000	1

データをより正規分布に近づけるために適用すべき手法は、次のうちどれですか。
A. Box-Cox変換
B. 主成分分析（PCA）
C. Min-maxスケーリング（正規化）
D. One-hotエンコーディング

Question 8
データサイエンティストは、顧客チャーン（解約率）を予測するMLプロジェクトを完了し、将来の参照のためにそのプロセスを文書化したいと考えています。データサイエンティストが文書に含めるべき内容は、次のうちどれですか。
A. モデルで使用されている顧客の購入履歴
B. テストセットにおけるモデルのパフォーマンス指標
C. モデル実装のソースコード
D. モデルで使用されている各特徴量の説明

※実際に出題される問題とは異なります。
※類似問題を許可なく複製、転載することは一切禁止します。

Question 1　
データサイエンティストは、頻度は低いがユーザーに長時間のダウンタイムをもたらすマシン障害を予測するモデルを構築しました。すぐに故障しないと思われるマシンの予防点検を実施すると、人件費が増加します。また、定期メンテナンスセッションの追加は、顧客満足度の低下につながり、新しいバージョンのマシン購入や保証契約の更新を控えることにつながります。この計画における主な目的は、次のうちどれですか。
A. レーバーコスト（人件費）
B. ダウンタイム
C. カスタマーリテンション（顧客維持）
D. サービス品質

Question 2　データサイエンティストは、連続型変数の分布を調べていますが、データのヒストグラムから結論を導き出すことができません。より分かりやすい視覚的な要約を得るため行うべきことは、次のうちどれですか。
A. ビン（bin）の数を増やす
B. 値の範囲を下げる
C. 追加データを収集する
D. コントラストの高い色を追加する

Question 3　
データの不均衡を処理するための最良の方法は、次のうちどれですか。
A. PCA（主成分分析）
B. SMOTE（Synthetic Minority Over-sampling Technique）
C. 2項ロジスティクス回帰
D. DBSCAN（Density-Based Spatial Clustering of Applications with Noise）

Question 4
データサイエンティストは、住宅の面積（平方フィート）、築年数、種類（アパート、一戸建て住宅、ボートなど）に基づいて、消費者の電力使用量を予測するモデルを構築しています。外れ値を処理する最も適切な方法は、次のうちどれですか。
A. 非線形モデルの選択
B. 外れ値の削除
C. データセットの正規化
D. ハイパーパラメータのチューニングを行う

Question 5
データサイエンティストは、顧客チャーン（解約率）を予測しようとしています。文献レビューを実施した後、データサイエンティストは類似の状況で成功した可能性のあるいくつかのモデルを特定しました。反復的にモデル設計を選択するための最も適切な次のステップは、次のうちどれですか。
A. 文献レビューで特定されたすべてのモデルを実装し、テストセットで最も精度の高いモデルを選択する
B. 文献レビューから、最新かつ効果的である可能性が高いことから、最近発表されたモデルを選択する
C. ベースラインモデルを開発し、解釈可能性の要件を考慮しながら、より複雑なモデルを繰り返し実装して比較する
D. 最も信頼性が高く受け入れられているため、文献レビューで最も多く引用されているモデルを選択する

Question 6　
データサイエンスチームは、セールス担当者が顧客と行った商談に関するデータセットを保有しています。各商談には、セールス担当者が取った一連の行動と、顧客が購入したかどうかが含まれています。顧客の購買行動と異なる行動セットの間の相関を見つけるための最適な方法は次のうちどれですか。
A. KNN（k近傍法）
B. クラスター分析
C. 特徴の重要性チャート
D. アソシエーションルール（連関ルール）

Question 7
データサイエンティストは、住宅価格を分析し、次の分布を観察しています。

価格帯	住宅数
100,000-200,000	50
200,001-300,000	30
300,001-400,000	15
400,001-500,000	3
500,001-600,000	1
600,001-700,000	1

データをより正規分布に近づけるために適用すべき手法は、次のうちどれですか。
A. Box-Cox変換
B. 主成分分析（PCA）
C. Min-maxスケーリング（正規化）
D. One-hotエンコーディング

Question 8
データサイエンティストは、顧客チャーン（解約率）を予測するMLプロジェクトを完了し、将来の参照のためにそのプロセスを文書化したいと考えています。データサイエンティストが文書に含めるべき内容は、次のうちどれですか。
A. モデルで使用されている顧客の購入履歴
B. テストセットにおけるモデルのパフォーマンス指標
C. モデル実装のソースコード
D. モデルで使用されている各特徴量の説明

注目！コンテンツ

お薦めコンテンツ

サポート

ブログ/SNS