aws 【AWS】【EMR】分散処理させたコアのEC2が出力したログを検索する AWSの分散処理基盤サービスであるEMRを利用していて、sparkで実装し、EC2を数台、時には数十台起動させて分散処理することがあります。分散処理は難しいところもありますが、大量のデータを扱う場合には非常に有益です。ですが、分散処理してい... 2021.06.18 ITawsemr
aws 【aws】【CLI】ロールごとにprofileを分ける awsにて複数の開発環境を各環境用ロールを用意しそれを切り替えることで実現しているときに、credential profileでうまいこと切り替えてCLIを実行できないか?を検証したときのメモ。 2021.06.07 ITaws
aws 【DynanoDB】【python】json.gzのバイナリデータを読む DynamoDBにバイナリデータが格納できるのは知ってたのですが、それをどう取得するのかなー?ということで調べてみたら、意外に色々やる必要があることがわかったのでメモ。 2021.03.24 DynamoDBITawspython
aws 【boto3】【dynamo】batch_get_itemでリトライ取得 boto3のDynamoDBはbatch_get_itemは1回で取得できるデータに制限があります。(データが16MB or 項目が100まで)取得できなかったデータは、UnprocessKeysを使用してもう一度取得することで不足分を追加... 2021.03.23 DynamoDBITawsboto3python
Apache Spark 【EMR】【pyspark】postgresqlのデータをDataframeに読み込む 以前、別のプロジェクトでscalaの方のsparkでEMRを利用した分散処理基盤の実装というのは行っていました。今回はpysparkを使用することになったのですが、いろいろspark時代の知識は有効であったものの、postgresqlのよう... 2020.07.07 Apache SparkITawspysparkpython
aws zappaでHello Worldしてみた。 先日こちらでもお話した通り、今回はzapaでHello Worldをしてみたいと思います。Hello Worldに向けて、【windows10】pyenv・pipenvでpythonの仮想環境を構築するwindowsでAWS CLIを使用す... 2020.06.08 ITawspython
aws windowsでAWS CLIを使用する 環境が変わるといつも「あれ?AWS CLIってどう設定するんだったっけ?」となるので、コマンドが叩けるようになるまでの操作について、備忘録的に記載。 2020.06.04 ITaws
aws 【AWS】CodeCommitプロトコルを使用してgitにアクセスする AWSでCodeCommitでgit cloneする場合に、CodeCommitプロトコルが使えるとなにかと便利なので備忘録。 2019.10.12 ITaws