■ Python 3 エンジニア認定データ分析試験
先月、『Python 3 エンジニア基礎試験』を受けました。
Pythonの自己啓発は継続で、色々とやっていますが、次は「データ分析試験」なるものが行けそうなので、そちらを受けてきました。
「Python3エンジニア認定データ分析試験」は…
とあたりが主な内容のようで、特に「NumPy」「pandas」「Matplitlib」あたりは、便利なのでちょうど良さそうです。
■ NumPyパッケージ
ということで、どんなパッケージかをGeminiに聞いてみると…
★Gemini回答★
NumPyとは?数値計算の強力なツール
NumPy (Numerical Pythonの略) は、Pythonで数値計算を行うための強力なライブラリです。特に、多次元配列 を効率的に扱うことに特化しており、科学技術計算やデータ分析において広く利用されています。
NumPyの主な特徴
■ pandasパッケージ
ということで、どんなパッケージかをGeminiに聞いてみると…
★Gemini回答★
Pythonのpandasとは?データ分析の強力なツール
pandas は、Pythonでデータ分析を行う際に欠かせない、強力なライブラリです。Excelのような表形式のデータを効率的に操作できることが特徴で、データサイエンティストやデータアナリストの間で広く利用されています。
pandasの主な特徴
- DataFrame: 表形式のデータを扱うための主要なデータ構造です。Excelのシートのようなイメージで、行と列から構成されています。
- Series: 1次元配列のようなデータ構造で、DataFrameの列を構成する要素です。
- データの読み込みと書き出し: CSV、Excel、SQLデータベースなど、さまざまな形式のデータを簡単に読み込むことができます。また、結果をCSVやExcelファイルに出力することも可能です。
- データの操作: データの抽出、ソート、集計、結合など、データ分析に必要なさまざまな操作を簡単に行えます。
- 欠損値の処理: データに含まれる欠損値を検出し、適切に処理することができます。
- 時系列データの処理: 日付や時刻をインデックスとした時系列データを効率的に扱うことができます。
■ Matplotlibパッケージ
ということで、どんなパッケージかをGeminiに聞いてみると…
★Gemini回答★
Matplotlib:Pythonでグラフを描くための強力なツール
Matplotlib は、Pythonでグラフや図を作成するための、最も一般的なライブラリの一つです。科学的なデータの可視化から、シンプルなグラフの作成まで、幅広い用途に対応できます。
Matplotlibの主な特徴
グラフを描画したりするには、かなり便利で、前にも少し使ったことがあります。
これは使いこなせて損はないので、使っていきたいパッケージです。
■ scikit-learnパッケージ
ということで、どんなパッケージかをGeminiに聞いてみると…
★Gemini回答★
scikit-learnとは?Pythonで機械学習をもっと身近に
scikit-learn は、Pythonで機械学習を行うための、非常に人気のあるライブラリです。その豊富なアルゴリズムと使いやすいインターフェースにより、データサイエンティストや機械学習エンジニアから広く支持されています。
scikit-learnの特徴
- 多様なアルゴリズム: 回帰分析、分類、クラスタリング、次元削減など、幅広い機械学習アルゴリズムが実装されています。
- 統一されたインターフェース: 異なるアルゴリズムでも、基本的に同じような形で利用できるため、学習コストが低いのが特徴です。
- モジュール性: 各アルゴリズムが独立したモジュールとして提供されているため、必要な機能だけを組み合わせて利用できます。
- 拡張性: NumPyやSciPyといった数値計算ライブラリと連携し、高度なカスタマイズも可能です。
scikit-learnでできること
ここまでは流石に手を出せていませんが、統計知識があれば、どういうことをやればいいか、どういうことをやっているか、といったことはわかります。
今後、やっていきたいところです。
■ 試験問題数・時間・合格ライン
Python3エンジニアデータ分析試験はこんな感じ。
- 問題数 : 40問
- 時間 : 60分
- 合格基準 : 7割正解
問題数、時間、合格基準は、「基礎試験」と全く同じです。
■ 試験受験
事前準備は「基礎試験」と同じ。
パッケージを導入して色々とやってみるのがよいですね。
直前で色々と仕事が立て込んだり、社のイベントがあったりと、最後の追い込みが微妙な感じになってしまいましたのが、ちょっと心残りでしたが…
試験会場では、試験準備の際に、試験官の人がなかなかログインできず、5分くらい試験開始が遅れました。
確かに、前に「基礎試験」を受けた時の試験官の人と違っていて、サブの人なのかわからないですが、ユーザ情報をあらかじめ押さえていなかったんでしょうね。
そして試験ですが、「基礎試験」は問題を解くのに45分くらい使い、見直しでほぼ時間いっぱいまで使いましたが、「データ分析試験」は数学の問題など、さほど考えなくても解ける問題がそこそこあったことで、30分くらいで一周できました。
やはりこの分野は数学的知識が重要ですね。
結果は…
無事に合格していました。
正直、数学部分は簡単でしたからね。確率・統計の知識や、線形代数・微分の知識があれば、全然簡単です。
基本的なところとしては…
- (m行n列)行列 ✕ (n行s列)行列 = (m行s列)行列 になる
- 標準正規分布は、平均 0、分散 1。
このあたりは、大学時代も死ぬほどやっていますし、ここ数年も統計について色々と勉強していますからね。
正直、数学を勉強していて、あとは各パッケージの基礎知識さえ抑えておけば、7割は余裕で行けそうな気がします。