IT 【python】pandasとnumpyでビニング処理(ビン分割処理) ビニング処理(ビン分割処理)とは、連続する値を値の境界で分割する処理です。例えば、テストの点数でA、B、Cランクに分けたりするのがイメージしやすいですかねー。そしてこの手の処理は自前で書けなくもないですが、pandasやnumpyでサクッと... 2022.01.19 ITnumpypandaspython
IT 【python】【json】データ差分圧縮・復元 jsonを扱うときに前提条件が揃ってさえいれば、容量をガツッと圧縮することができることを教えていただいたので、それを実装して圧縮〜復元とやってみたのでメモ。 2021.05.12 ITpandaspython
IT 【EMR】【pyspark】pandasのs3へのto_jsonがgzip圧縮されない? お久しぶりですね。実に4ヶ月も更新をサボってしまってました笑ここのところ、プロジェクトが2、3同時に対応することが多くて、ナレッジは溜まっているもののなかなかブログにかけずにおりました。。。さて、本日はpandasでto_jsonでjson... 2021.03.22 ITpandaspysparkpython
IT 【python】pandasでデータを操作する 最近は、データ分析なんかを担当しているので、awsのs3に散りばめられたcsvと格闘することが多いです。それを処理するために主に使用する言語がpythonなのですが、テキストデータを扱うためにpandasというライブラリを使用しています。今... 2020.08.18 ITpandaspython