aws 【AWS】【EMR】分散処理させたコアのEC2が出力したログを検索する AWSの分散処理基盤サービスであるEMRを利用していて、 sparkで実装し、EC2を数台、時には数十台起動させて 分散処理することがあります。 分散処理は難しいところもありますが、 大量のデータを扱う場合には非常に有益です。 ですが、分散... 2021.06.18 awsemrIT
aws 【aws】【CLI】ロールごとにprofileを分ける awsにて複数の開発環境を各環境用ロールを用意し それを切り替えることで実現しているときに、 credential profileでうまいこと切り替えてCLIを実行できないか? を検証したときのメモ。 2021.06.07 awsIT
aws 【DynanoDB】【python】json.gzのバイナリデータを読む DynamoDBにバイナリデータが格納できるのは知ってたのですが、 それをどう取得するのかなー?ということで調べてみたら、 意外に色々やる必要があることがわかったのでメモ。 2021.03.24 awsDynamoDBITpython
aws 【boto3】【dynamo】batch_get_itemでリトライ取得 boto3のDynamoDBはbatch_get_itemは1回で取得できるデータに 制限があります。(データが16MB or 項目が100まで) 取得できなかったデータは、UnprocessKeysを使用して もう一度取得することで不足分... 2021.03.23 awsboto3DynamoDBITpython
Apache Spark 【EMR】【pyspark】postgresqlのデータをDataframeに読み込む 以前、別のプロジェクトでscalaの方のsparkで EMRを利用した分散処理基盤の実装というのは行っていました。 今回はpysparkを使用することになったのですが、 いろいろspark時代の知識は有効であったものの、 postgresq... 2020.07.07 Apache SparkawsITpysparkpython
aws zappaでHello Worldしてみた。 先日こちらでもお話した通り、今回はzapaでHello Worldをしてみたいと思います。 Hello Worldに向けて、 【windows10】pyenv・pipenvでpythonの仮想環境を構築する windowsでAWS CLIを... 2020.06.08 awsITpython
aws windowsでAWS CLIを使用する 環境が変わるといつも「あれ?AWS CLIってどう設定するんだったっけ?」となるので、 コマンドが叩けるようになるまでの操作について、備忘録的に記載。 2020.06.04 awsIT
aws 【AWS】CodeCommitプロトコルを使用してgitにアクセスする AWSでCodeCommitでgit cloneする場合に、 CodeCommitプロトコルが使えるとなにかと便利なので備忘録。 2019.10.12 awsIT