Apache Spark

スポンサーリンク
Apache Spark

【EMR】【pyspark】postgresqlのデータをDataframeに読み込む

以前、別のプロジェクトでscalaの方のsparkでEMRを利用した分散処理基盤の実装というのは行っていました。今回はpysparkを使用することになったのですが、いろいろspark時代の知識は有効であったものの、postgresqlのよう...
Apache Spark

【Apache Spark】jdbc並列読み込みさせる

sparkでjdbc経由でデータベースの内容を読み込んでDataFrameとして扱うことは少なくないと思います。しかし大量データを取得するような場合は、1クエリでデータを取得するより、並列で取得したほうが効率がよいことがあります。今回は僕が...
Apache Spark

【Apache spark】UUIDを使い回す

一意のIDを付与するためにUUIDを使用することはよくあると思います。ところが、このUUID、sparkでDataFrameを扱う中で使用するには少し注意が必要です。以下サンプル言語はscalaです。
Apache Spark

【Apach Spark】DataFrameのforeachでハマっちゃった

AWS EMRを使用することになり、アプリとしてsparkを使用することになりました。scalaはplay frameworkで過去にお世話になっていましたが、saprk自体は初めて触るので、サンプルを作成してみようかなということになりまし...
スポンサーリンク