2018-01-01から1年間の記事一覧

RedShiftでETL処理向けの擬似JSON型カラムViewを作成する

こんにちは。データサイエンティスト兼、データ基盤エンジニアのshobyです。 今回は、RedShiftでETL処理向けに、擬似的にJSON型のカラムを持つViewを作成する方法をご紹介します。 擬似JSON型のカラムを使用することで、データマートへデータを移す際のデー…

AWS Data Pipelineのハマりポイント

こんにちは、エンジニアの taross-f です。 弊社では様々なログデータをAWS Batch, AWS Lambda, AWS Data Pipeline などを組み合わせてETLを行っています。 その中で先日Datapipelineを触っていろいろハマるポイントがあったので、同じ気持ちになる人を減ら…

DataGripからAmazon Athenaを利用する

こんにちは。データサイエンティスト兼、データ基盤エンジニアのshobyです。 今回は、DataGripからAmazon Athenaを使用する方法をご紹介します。 概要 DataGripとAthenaについて DataGripからAthenaを利用する DataGripとAthenaについて DataGripはJetBrains…

RedShiftでの日時処理を行う際の注意点

こんにちは。データサイエンティスト兼、データ基盤エンジニアのshobyです。 RedShiftの日時処理、紛らわしいですよね。 今回は、RedShiftで日時処理をする際の注意点をご紹介します。 概要 現在日時取得の注意点 曜日取得の注意点 日時間隔取得の注意点 現…

S3のデータを別アカウントの別バケットにコピーする際の権限設定

こんにちは。データサイエンティスト兼、データ基盤エンジニアのshobyです。 TVISION INSIGHTSでは、本番環境と開発環境でAWSのアカウントを分けて運用しており、 時折本番ログデータを開発用S3バケットにコピーする必要が生じています。 別アカウントの別バ…

RedShiftでDECIMAL(NUMERIC)を使用する際の有効桁数について

こんにちは。データサイエンティスト兼、データ基盤エンジニアのshobyです。 皆さんは、RedShiftで小数点数を扱う際に、どのような型を使用していますか? 今回は、固定精度で小数点数を扱うことのできるDECIMAL(NUMERIC)と、その有効桁数についてご紹介し…

DataGripって、便利

はじめまして、最近TVISION INSIGHTSにジョインしたエンジニアの taross-fです。 前職ではソーシャルゲームの会社で主にC#を書いて過ごしていましたが、現在はデータベースからAWSからいろいろ触っていて、必死に楽しく日々を過ごしています。 他メンバーのp…

『継続して○○した日数』とその最大値をSQLで求める

SQL

こんにちわ。データ部の長野です。 TVISION INSIGHTSのデータ部では、複雑なデータ抽出をする機会が多々あります。 今回は最近おこなった複雑なデータ抽出ロジックの1つ、 「『継続して○○した日数』とその最大値」 をSQLで求める方法を紹介します! ======= …

WITH句で複雑な分析用SQLの可読性を上げる(RedShift)

SQL

こんにちは。データサイエンティスト兼、データ基盤エンジニアのshobyです。 皆さんはSQLを書く際に、どの程度サブクエリを使っていますか? TVISION INSIGHTSのデータチームでは、RedShiftを使用した分析のために複雑なSQLを書く必要があり、サブクエリを多…

RedShiftにユーザー定義関数を追加し、データ抽出業務を効率化する

こんにちは。データサイエンティスト、兼データ基盤エンジニアのshobyです。 今回は、データ抽出業務を効率化するために、RedShiftにユーザー定義関数を追加する方法をご紹介します。 RedShiftのユーザー定義関数 RedShiftでは、SQLもしくはPythonを使用し、…

RedShiftの制約についての注意点

こんにちは。データサイエンティスト兼、データ基盤エンジニアのshobyです。 今回は、RedShiftの制約について注意すべき点をご紹介します。 概要 RedShiftの制約は違反できる DataPipelineを使った実質的なPrimary Key制約の実現 RedShiftの制約は違反できる…

RedShiftの列圧縮タイプを見直し、ディスク費用を節約する

こんにちは。データサイエンティスト兼、データ基盤エンジニアのshobyです。 今回は、RedShiftを長年運用していく中でディスク使用量が肥大化していく問題に対して、列圧縮タイプを見直し、ディスク費用を節約する方法をご紹介します。 概要 RedShiftのデー…

【イベントレポ】「Redash Meetup 3.0.0」に参加してきました!

はじめに こんにちわ、データ部の長野です。 TVISIONでは、非エンジニア向けのデータ抽出環境として少し前からRedashを使用しています。 社内で少しずつRedashが浸透していく中で 色々と便利だけど、他の会社ではどう使っているのだろうか(使えそうな事例が…

S3を用いて本番環境のRedShiftから開発環境のRedShiftにデータを移す

こんにちは。データサイエンティスト兼、データ基盤エンジニアのshobyです。 皆さんは、開発環境のRedShiftでテスト用に本番データを使用したい場合にどうやってデータを移していますか? 今回は、S3を用いて本番環境のRedShiftから、開発用のRedShiftにデー…

RedShiftの権限管理オペレーション用SQLチートシート

こんにちは。データサイエンティスト兼、データ基盤エンジニアのshobyです。 皆さんはRedShiftで「アカウント追加お願いします!」「権限追加お願いします!」といった運用オペレーションを依頼されることはどの程度ありますか? 今回は、週に一度は権限周り…

分析結果の信頼性を上げるSQLレビューについて

こんにちは。データサイエンティスト兼、データ基盤エンジニアのshobyです。 皆さんは、分析結果の信頼性をどのように保証していますか? 近年では、データの重要性が増した結果、データサイエンティストの出した分析結果を元に、大きな意思決定もされるよう…

喧嘩を生まないSQLコーディング規約の作り方

SQL

こんにちは。データサイエンティスト兼、データ基盤エンジニアのshobyです。 皆さんは社内でどのようなSQLコーディング規約を設けていますか? 多くのエンジニアが関わるシステムにコーディング規約が必要なように、多くのデータサイエンティストが関わる分…

RedashからAmazon Athenaのクエリを実行できるようにする

こんにちは。データサイエンティスト兼、データ基盤エンジニアのshobyです。 今回は、S3に存在する生ログファイルの分析に便利なAmazon AthenaをRedashと連携する方法をご紹介します。 RedashとAthenaを連携し、生ログファイルを検証するクエリを問題に備え…

S3に保存された生ログファイルをSQLで分析できるようにする(Amazon Athena)

こんにちは。データサイエンティスト兼、データ基盤エンジニアのshobyです。 皆さんは「S3の生ログデータを分析してくれ」と言われた場合、どうしていますか? ログ分析基盤に入っておらず、S3にしか存在しない生ログデータを分析するのは骨が折れる作業です…

RedashのAlert機能を使ってログデータの欠損や異常値をチェックする

初めまして。 データサイエンティスト兼、データ基盤エンジニアのshobyです。 突然ですが皆さんは、データウェアハウスに保存されたログデータの信頼性をどのようにチェックしていますか? 日々追加されるログデータが分析に耐えうる品質の物かをチェックす…