経済統計の使い方
統計初心者向けに、データや分析手法の解説をしています。「まとめページ」をご覧くだされば、全体的な内容がわかると思います。
python

【python】とにかくどんなデータか知りたい

データの中身を知るには

自分で作ったプログラムでも、実際にデータがどうなっているのかを知りたい場合は多いです。データのタイプによって調べ方は異なります。それらをまとめてみました。まずは、type関数でオブジェクトの種類を調べましょう。

メソッド・属性説明
データフレームdf.shape大きさ
df.dtypesデータタイプ
df.head()最初のデータ
df.tail()終わりのデータ
テンソルx.shape大きさ
x.dtypeデータタイプ
x.ndim次元
x.numel()要素の総数

経済統計の使い方では、統計データの入手法から分析法まで解説しています。

【python】pythonのまとめ 経済統計の使い方では、統計データの入手法から分析法まで解説しています。 https://officekaisuiyoku.com...

中身を知る

どのようなデータかを知るには、type関数を使います。アレイなのかデータフレームなのか、テンソルなのかがわかります。

type(オブジェクト)

データフレームであれば、<class’pandas.core.frame.DataFrame’>と表示されます。pandasというパッケージの中のcore.frameというモジュールにある、DataFrameというデータ型ということを示しています。データフレームはクラス(設計図)であり、メソッドが使えます。

print(type(df1))
出力
<class 'pandas.core.frame.DataFrame'>

PyTorchで作ったテンソルの場合は、<class ‘torch.Tensor’>と表示されます。

データフレームの場合

下記のデータフレームを基に説明します。

import pandas as pd

df = pd.DataFrame({
    "国名": ["A国", "B国", "C国"],
    "2000": [400, 330, 240],
    "2010": [410, 340, 250],
    "2020": [420, 350, 260]
})

データを見る

df

print(df)

Jupyter Notebookやグーグルコラボでは、データフレームの名前のみを入力すると、データが表形式で出力されます。データ量が多い場合は最初の5行と最後の5行が表示されます。

print(df)としても出力されます。こちらもデータ量が多い場合は最初の5行と最後の5行が表示されます。

   国名  2000  2010  2020
0  A国   400   410   420
1  B国   330   340   350
2  C国   240   250   260

データフレームの大きさを知る

df.shape

データフレームの大きさを知るには、shape属性を使います。3行×4列(shape=(3,4))であることがわかります。

df.shape
出力
(3, 4)

データタイプを知る

df.dtypes

データフレームの要素のデータタイプを知るには、dtypesメソッドを使います。

print(df.dtypes)

列名は、数値になったり文字になったりするので、objectになっています。国名は文字ですが、objectはすべての形を含みます。ほかはint64で、整数であることを表しています。

国名      object
2000     int64
2010     int64
2020     int64
dtype: object

データの一部を見る

df.head(),df.tail()

データの一部をみるには、headメソッドやtailメソッドがあります。()の中に数字を入れると、その行分だけ出力されます。何も入力しない場合はhead()は最初5行、tail()は最後5行が出力されます。

テンソルの場合

type(x)を調べてxがテンソルだとわかった場合です。

データを見る

x

print(x)

テンソルの名前のみを入力しても、print(x)としてもテンソル形式で出力されます。

import torch

# 2行3列のテンソルを作成
x = torch.tensor([[1, 2, 3], [4, 5, 6]])

出力

  tensor([[1, 2, 3],
        [4, 5, 6]])

テンソルの大きさを知る

x.shape

データフレームの大きさを知るには、shape属性を使います。2行3列であることがわかります。

x.shape
出力
torch.Size([2, 3])

x.size()で調べることもできます。

x.size()
出力
torch.Size([2, 3])

データタイプを知る

x.dtype

テンソルの要素のデータタイプを知るには、dtypeメソッドを使います。

x.dtype

データフレームは、データタイプが複数のことがありますが、テンソルでは同じなので、dtypeと単数形です。

出力
torch.int64

次元数を確認する

x.ndim

次元数を確認するには、x.ndimで調べることができます。x.dim()も同じです。

x.ndim

出力

2

要素の総数を調べる

x.numel()

要素の総数を調べるにはx.numel()を使います。

x.numel()
出力
6

COMMENT

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA