Apache Spark 【EMR】【pyspark】postgresqlのデータをDataframeに読み込む 以前、別のプロジェクトでscalaの方のsparkでEMRを利用した分散処理基盤の実装というのは行っていました。今回はpysparkを使用することになったのですが、いろいろspark時代の知識は有効であったものの、postgresqlのよう... 2020.07.07 Apache SparkITawspysparkpython
Apache Spark 【Apache Spark】jdbc並列読み込みさせる sparkでjdbc経由でデータベースの内容を読み込んでDataFrameとして扱うことは少なくないと思います。しかし大量データを取得するような場合は、1クエリでデータを取得するより、並列で取得したほうが効率がよいことがあります。今回は僕が... 2019.10.15 Apache SparkIT
Apache Spark 【Apache spark】UUIDを使い回す 一意のIDを付与するためにUUIDを使用することはよくあると思います。ところが、このUUID、sparkでDataFrameを扱う中で使用するには少し注意が必要です。以下サンプル言語はscalaです。 2019.10.14 Apache SparkIT
Apache Spark 【Apach Spark】DataFrameのforeachでハマっちゃった AWS EMRを使用することになり、アプリとしてsparkを使用することになりました。scalaはplay frameworkで過去にお世話になっていましたが、saprk自体は初めて触るので、サンプルを作成してみようかなということになりまし... 2019.07.07 Apache SparkITscala