*頁アーカイブ*
 ②

       

*②頁目 目次*
 11.ライブラリ(pandas)の使い方① / 12.ライブラリ(pandas)の使い方② /
 13.ライブラリ(pandas)の使い方③ / 14. /
 15. / 16. / 17. /
 18. / 19. / 20.

         
  

【第11回】 ライブラリ(pandas)の使い方①

漫画11こんにちは!

さてさて、間に番外編を挟みましたがPythonもインストール出来たことだし
今度は私が実際によく使っているライブラリについて紹介するよー!

基本的に私が普段仕事で使うデータの形式は “.csv” です

扱うファイルが1つや2つで、中身のデータ行列も少ないならExcelで充分なんやけど水質を始め、対象を機械的に測定している場合、
データは1ファイルにつき数十列×
数百行なんて当たり前
になってきます。

そんな膨大なデータを扱う際、Pythonpandasってライブラリを使うと
データの扱いがとっても楽になります
🌟

超人でもないと細かい数字何個も何個も見てられないからね!!


あ!一応補足するけど表を作りたいとか特定のデータ値に色つけたいとかはExcelか他のソフトでやってね。

ここで話すのはたくさんのデータの中から必要な要素を取り出したり、
扱いやすくする方法
です。
表にしたり、グラフで可視化するための前処理だと思ってください。


以下にコード例を紹介します。


1.初めに

pandasに限らずライブラリを使うときは必ずインポートしましょう
インポートしてからじゃないと使えません。



なので
import 〇〇○ (←ライブラリ名)
最初にこれを記述しましょう。

また、import 〇〇○ as △△△ とすると、
△△△という名前で〇〇○を読み込んだことになります。

  
インポートする
2行目3行目の実行結果が“>>>”以降に表示されますが、どちらも問題なさそうですね。

これでpandasが使えるようになりました。
(ちなみに、importがImportになってるとエラーが返される・笑)


あとここで言っておきたいポイントが1つあって、
プログラムの最初に #coding: utf-8 とありますよね。
これを記載しておくと日本語が文字化けしてしまう!なんてことが防げます。

コード中に日本語が出てこない場合必要ないけど、私はそうじゃないので毎回記載してるよ☺


・・・さて、話を戻します。


漫画122.データ読み込み

次に、読み込むファイル(ここでは『arr_date.csv』)はこのような1000行12列の数値データとします。




pandasにはtxtファイルやその他のファイル形式についても対応できるようツールが用意されていますが、今回使うのはcsvファイルなので、次に入力するのは

pd.read_csv() もしくはpandas.read_csv()

()の中には開きたいファイルのパスを入力してくださいね!
その際パスの最初と最後に「‘」を付け加えるのを忘れずに。
‘テキスト’と囲うことでPythonがテキストを文字列と認識してくれます。
また、パス中に「」があれば「/」に変更してくださいね。


3.結果出力

結果こんな感じ↓

実行結果

見やすくなりましたね~😋

Pandasで読み込んだデータはDataFrameという形で扱うことが出来ます。
私は初めて見たときExcelのセルが無いバージョンだと感じました(笑)

pd.read_csv(‘パス’,header=0,index_col=0)
ここでパスの後ろ、コンマ以降に記述しているのはread_csvのパラメーターです。
指定しているのは項目行と見出し列。
パラメーターを指定することで細かい調整をしてくれます。

さて、今回はここまで。

次回は読み込んだデータを使って簡単な操作をしてみようと思いますkai


  

***⑫へ続く***      このページ最初に戻るこのページ最初に戻る
0701**20200521


【第12回】 ライブラリ(pandas)の使い方②ーPrint参照

  

漫画12前回pandasを使って下の図のようにcsvファイルの読み込みができました。

今日はその続きとして簡単なデータ操作を行いたいと思います。

実行結果

1.変数化

まずは6行目

pd.read_csv(‘C:/Users/・・・’) これを
df= pd.read_csv(‘C:/Users/・・・’) に直してください。

このdfというのは任意の変数です。
dfじゃなくdateでもdでも何でもOK。

データ読み込みにpd.read…と、長ったらしく書きましたが、変数にすることで以下2文字で済みます
この作業はプログラムを書くときの基本ですが、コードをスッキリ見やすくして間違いを減らすことにも繋がりますので是非慣れて下さい(*´ω`*)


2.print() 参照

im10
先程変数に代入したデータ値は
Python3.6なら print(変数) のコマンドで中身の確認ができます。
私はめんどくさいので dfとそのまま打ってますがこれも大丈夫みたいです。
(3.6以前のバージョンだと、すこしコマンドが違うらしい・・・)

print(df)だとdfの全体が確認できます。
中身のデータの数が多い場合は「…」と間の部分が省略されてしまいますが(笑)

そして参考までに他の参照方法を挙げると

df.head()
df.tail()


などのコマンドがあり、head()は先頭、tail()は末尾を参照します。
また、()の中に数字を入れると参照する行数が指定できます。デフォルト参照数は5行です。

とっても簡単ですね!

次回は見たいデータを行・列を指定して参照する方法を紹介します。

ではでは!

     

***⑬へ続く***      このページ最初に戻るこのページ最初に戻る
0701**20200604

       

【第13回】 ライブラリ(pandas)の使い方③ー列を指定して抽出

漫画13今回はDataFrame (df)から行・列を指定して見たいデータを取り出すよ。

1.列抽出

先にコマンドを言ってしまうと、df.列名 や df[‘列名’] で抽出可能です。
ただ、前者が使えるのは列名が文字列のときらしく、
以下一番初めの列を指定していますが、赤文字部分で構文エラーが出ています^^;

■ df.列名↓


気を取り直して今度は列名を
[‘0’,‘1’,‘2’,‘3’・・・・] から [‘a’,‘b’,‘c’,‘d’・・・・] とアルファベットに直して再度取り出します。



このとき列名を一括で変更する方法ですが、df.columns で指定してやると簡単
実際の列数と[ ]の中身の個数が一致するように記載しましょう。(df[‘列名’]①↓)
今度はdf.aで最初の列の抽出が出来ました。

また、df[‘列名‘]を使うと数字でも文字列でも関係なく抽出できます。(df[‘列名’]②↓)

•df[‘列名’]①↓


•df[‘列名’]②↓


こんな感じで多少の規制はあるものの簡単に抽出できました(^o^)


2.行抽出

dfから範囲を指定して取り出す場合

■ df[行番号:行番号]↓


次に1行だけ抽出したい場合や複数行指定したい場合は行(列)番号を指定するilocを使います。

■ df.iloc[行番号]↓



さて、ここで皆さんに問題です。

問題:
ilocを使ってindexの2行目と3行目を取り出すには
どうすればいいでしょうか???



答えは次回載せます(*´ω`*)

     

***⑭へ続く***      このページ最初に戻るこのページ最初に戻る
0701**20200618