統計学や機械学習を実施するとき、数値をndarrayという型で扱うことが一般的です。ここではndarryについて説明します。
説明のため、乱数でデータを生成します。 以下は乱数を生成させ、Dat01、Dat02に格納するコードです。 詳細は別ページで詳細に解説するので、おまじないとして書いて見てください。 統計に詳しい人向けにいうと、平均ベクトルをmu、分散共分散行列をsigmaとした2変量正規分布に従う乱数生成となります。
import numpy as np
mu = [0.3, 0.3]
sigma = [[0.1, 0], [0, 0.1]]
Dat01 = np.random.multivariate_normal(mu, sigma, 20)
mu = [0.7, 0.7]
sigma = [[0.1, 0], [0, 0.1]]
Dat02 = np.random.multivariate_normal(mu, sigma, 20)
Dat01には何が詰まっているのか見てみます。
print(Dat01)
このように、2次元のデータが20個入っています。次に、この型をチェックしてみます。
type(Dat01)
numpy.ndarrayと出てきました。統計や機械学習を行うとき、基本的にこの型で行います。統計や機械学習専用の型とでも覚えておいてください。
アクセス方法は以下の通りです。想定通りの数値が取り出されていることを確認してみてください。
第a列目:
a=0
Dat01[:,a]
第a行目:
a=0
Dat01[a,:]
第a行b列目:
a, b = 0, 1
Dat01[a,b]
第a〜b行、c列目:
リストでの範囲指定と同様に、a:bと指定すると、bの一つ前まで参照されます。
a, b = 0, 3
c = 1
Dat01[a:b, c] # 0:3なので、0, 1, 2行目が取り出される。
第a行、b〜c列目:
リストでの範囲指定と同様に、b:cと指定すると、cの一つ前まで参照されます。
a = 0
b, c = 0, 2
Dat01[a, b:c] # 0:2なので、0, 1列目が取り出される。
すべての要素にゼロが代入されたndarrayを生成します。以下は、5行4列のゼロ行列を作成するコードです。型はndarrayになっていることも確認できます。
import numpy as np
z = np.zeros([5, 4])
print(z)
type(z)
z1より、ndarrayにスカラー値を足すと、すべての要素にたされます。
z2より、ndarrayにスカラー値のかけ算を行うと、すべての要素に掛け算が行われます。
z3より、同じサイズ同士のndarrayを足すと、同じ場所の値同士が足されます。
z4より、同じサイズ同士のndarrayをかけると、同じ場所の値同士が足されます。
z1 = z + 1
print(z1)
z2 = z1 * 5
print(z2)
z3 = z1 + z2
print(z3)
z4 = z2 * z3
print(z4)
次に、array同士の結合について考えてみます。このためにまず、行列のサイズを取得してみます。以下のように、shape関数を用いることで、サイズを獲得することができます。
d=np.shape(Dat01)
print(d)
print("Dat01の行サイズ:", d[0])
print("Dat01の列サイズ:", d[1])
Dat01のサイズは20行2列であることがわかりました。Dat02はどうでしょう。
np.shape(Dat02)
Dat01とDat02は行列どちらも同じサイズです。ということは縦に並べて、40行2列サイズにすることもできそうです。このように、行成分で結合させるには、np.concatenate([A, B], 0)を使用します。
Dat03 = np.concatenate([Dat01, Dat02], 0)
np.shape(Dat03)
40行2列のarrayを作れました。長くなるのでここではprintによる確認はしませんが、勉強中の方は縦につながっていることを確認してください。次に、Dat01とDat02を縦ではなく横に並べてみます。これには、np.concatenate([A, B], 1)を使用します。
Dat04 = np.concatenate([Dat01, Dat02], 1)
np.shape(Dat04)
このように、行成分で結合させることができました。concatenate関数に対して、
Dat04は20行4列サイズですから、合計80個の数字で構成されています。深い分析を行いたいとき、これを80行1列サイズに変形したい、というときもあります。こういうときはreshape関数を使います。np.reshape(A, (b, c))と書くことで、array Aをb行c列に変換してくれます。print関数でDat05の中身を見るとわかりますが、Dat01の0行目の4つ→1行目の4つ→2行目の4つ...の順番で縦に並んで行きます。
Dat05 = np.reshape(Dat04, (80, 1))
np.shape(Dat05)
上の説明が正しいなら、Dat05の4行目から7行目は、Dat04の1行目の4つと等しくなるはずです。確認してみましょう。
print(Dat05[4:8, 0])
print(Dat04[1, :])
Dat05[4:8, 0] == Dat04[1, :]
変形されたDat05を元のサイズ、20行4列に戻して、Dat04と等しくなるかチェックしてみます。
Dat04_return = np.reshape(Dat05, (20, 4))
np.shape(Dat04_return)
Dat04 == Dat04_return
全部Trueです。元に戻ったことを確認できました。
はじめにも書きましたが、統計分析や機械学習を行うには、ndarray型の変数である必要があります。以前解説したリストとかではNGです。リストなどをndarray型に変換する方法は以下の通りです。
Value_List = [[1, 2, 3], [4, 5, 6]] # リストで変数を用意しました。
print("型チェック:", type(Value_List)) # この段階ではリスト型
Value_Np = np.array(Value_List) # adarrayへキャスト
print("型チェック:", type(Value_Np)) # この段階ではndarray型
np.shape(Value_Np) # 2行3列であることを確認
リスト型が、ndarray型に変換されたことを確認できました。
分析結果を保存したり、実験データをndarray型で読み込む方法について述べます。まずは保存から。上はヘッダなしでの保存、下はヘッダありでの保存となります。状況に応じて使い分けます。jupyter notebookを起動しているディレクトリで実際にデータが保存されたことを確認してみてください。(comment=''をつけないと謎のシャープが入る)
np.savetxt("Dat04_NoHeader.csv", Dat04, delimiter=",")
np.savetxt("Dat04_Header.csv", Dat04, delimiter=",", header="c1, c2, c3, c4", comments='')
次に、保存したデータをロードしてみます。ndarray型は文字を扱うことができないので、ヘッダ付きのcsvファイルを読み込むには、ヘッダ行を飛ばして読む必要があります。skiprows=1とは、ヘッダ分1行飛ばすという意味があります。
Dat04_LoadHeader = np.loadtxt("Dat04_Header.csv", delimiter=",", skiprows=1)
np.shape(Dat04_LoadHeader)
次に、ヘッダなしの方を読み込んでみます。今度はヘッダがないので、skiprowsは不要となります。
Dat04_LoadNoHeader = np.loadtxt("Dat04_NoHeader.csv", delimiter=",")
np.shape(Dat04_LoadNoHeader)
上の方に、「import numpy as np」と書いてあります。これは、numpyという便利な関数などがまとめられた便利ボックスを使うという宣言のようなものです。実際にその関数を使うには、その関数を使うには、「as」の後ろにかいてある「np」をつけます。ここで紹介した、以下はすべて、numpyという便利ボックスに入っている関数です。
とりあえずは分析に必須のものを並べました。 他にもたくさんあるので、自分で勉強してください。