Apache Spark

スポンサーリンク
Apache Spark

【EMR】【pyspark】postgresqlのデータをDataframeに読み込む

以前、別のプロジェクトでscalaの方のsparkで EMRを利用した分散処理基盤の実装というのは行っていました。 今回はpysparkを使用することになったのですが、 いろいろspark時代の知識は有効であったものの、 postgresq...
Apache Spark

【Apache Spark】jdbc並列読み込みさせる

sparkでjdbc経由でデータベースの内容を 読み込んでDataFrameとして扱うことは少なくないと思います。 しかし大量データを取得するような場合は、 1クエリでデータを取得するより、 並列で取得したほうが効率がよいことがあります。 ...
Apache Spark

【Apache spark】UUIDを使い回す

一意のIDを付与するためにUUIDを使用することはよくあると思います。 ところが、このUUID、 sparkでDataFrameを扱う中で 使用するには少し注意が必要です。 以下サンプル言語はscalaです。
Apache Spark

【Apach Spark】DataFrameのforeachでハマっちゃった

AWS EMRを使用することになり、 アプリとしてsparkを使用することになりました。 scalaはplay frameworkで過去にお世話になっていましたが、 saprk自体は初めて触るので、 サンプルを作成してみようかなということに...
スポンサーリンク