IT 【EMR】【pyspark】pandasのs3へのto_jsonがgzip圧縮されない? お久しぶりですね。実に4ヶ月も更新をサボってしまってました笑ここのところ、プロジェクトが2、3同時に対応することが多くて、ナレッジは溜まっているもののなかなかブログにかけずにおりました。。。さて、本日はpandasでto_jsonでjson... 2021.03.22 ITpandaspysparkpython
Apache Spark 【EMR】【pyspark】postgresqlのデータをDataframeに読み込む 以前、別のプロジェクトでscalaの方のsparkでEMRを利用した分散処理基盤の実装というのは行っていました。今回はpysparkを使用することになったのですが、いろいろspark時代の知識は有効であったものの、postgresqlのよう... 2020.07.07 Apache SparkITawspysparkpython