IT 【EMR】【pyspark】pandasのs3へのto_jsonがgzip圧縮されない? お久しぶりですね。実に4ヶ月も更新をサボってしまってました笑 ここのところ、プロジェクトが2、3同時に対応することが多くて、 ナレッジは溜まっているもののなかなかブログにかけずにおりました。。。 さて、本日はpandasでto_jsonでj... 2021.03.22 ITpandaspysparkpython
Apache Spark 【EMR】【pyspark】postgresqlのデータをDataframeに読み込む 以前、別のプロジェクトでscalaの方のsparkで EMRを利用した分散処理基盤の実装というのは行っていました。 今回はpysparkを使用することになったのですが、 いろいろspark時代の知識は有効であったものの、 postgresq... 2020.07.07 Apache SparkawsITpysparkpython