はじめに REVISIOエンジニアの岩田です。本記事では、REVISIOのデータ基盤において、Amazon EventBridgeの重複実行によって発生していたAWS Batchジョブの重複起動問題を、Snowflakeタスクに移行することで解決した事例を紹介します。EventBridgeによるジョ…
はじめに DBManiaです。 突然ですが、みなさんはSnowflakeのパフォーマンスチューニングは行われていますか? パフォーマンスチューニングはWarehouseのスケールアップとクエリーアクセラレーターで十分という方もいらっしゃるかも知れません。 しかし、実は…
はじめに REVISIOデータサイエンティストの本川です。(mtkwT (Tetsuya Motokawa) · GitHub) 12/1にスポットA-URシミュレーターというテレビCMプラニングためのツールをローンチしたので、その裏側の仕組みについて書き残します。 ツール紹介 スポットA-URシ…
DBManiaです。 弊社がSnowflake社のData Drivers Awards 2023にて、Data Driver of the Yearを受賞してから初の更新となります。 Snowflakeに新機能としてUDFとPROCEDUREにオプション引数が実装されました。 この機能の何が凄いのか、具体例で説明したいと思…
REVISIOのエンジニア植草です。 先日片岡から Streamlitについて投稿がございましたが、Snowflake上でStreamlitのコンテンツを 扱えるようになり、Snowflake・Streamlitのアップデートのスピード感を目の当たりにしているところです。 私もStreamlitを触り始…
つい先日、"SnowflakeのHands On Essentials - Data Warehouse"を獲得したDBManiaです。 相変わらずSnowflakeのDWHとしての性能、機能に惚れ込んで、使い倒す日々を送っております。 クエリー結果キャッシュとは さて、Snowflakeのパフォーマンスを上げるた…
REVISIOのエンジニア片岡です。 Pythonのみで簡単にダッシュボード的なWebアプリが作れるフレームワークStreamlitですが、昨年Snowflakeに買収され、 Snowflakeのウェアハウス(サーバー)上で実行してユーザーへ提供できるようになりました。 Snowflake Nat…
エンジニアの片岡です。 先日、Docker Desktopの最新版4.19がリリースされました。 macOSでDockerコンテナとホストOSの間のネットワークが5倍高速になったとの情報を見て、もしそのような高速化がされているなら嬉しいなということで、早速試してみました。 …
SnowflakeのSnowsightから、GUIベースで外部ステージを作成できる機能がプレビューされました。 これでお手軽に外部ステージが作成できますね。 残念ながら日本語ドキュメントはまだ用意されていないようですので、英文のドキュメントを参考に、さっそく作成…
DBManiaです。Snowflakeでアカウント複製機能がGAになりましたね。 これでレプリケーションやフェイルオーバーが自由にできるようになったのですが、アカウント複製でできるのはそれだけではありません。 この機能を利用すると、本番環境から独立した開発環…
最近Snowflakeの記事を投稿していますDBManiaです。 今回はSnowflakeで有向非巡回グラフ(Directed Acyclic Graph、以下DAGと表記)と、DAGを組む際にハマりそうなポイントについて説明いたします。 SnowflakeのDAGとは 前準備 Tips1:TASKはRESUMEしないと動…
REVISIOのエンジニア片岡です。 先日2月14日、Snowflakeの大規模イベントSNOWDAY JAPANに参加・登壇してきました。 登壇資料はこちら。 speakerdeck.com ANAインターコンチネンタルホテル東京+オンラインでの開催でしたが、オフラインイベントの独特の雰囲…
はじめに 弊社でRedshiftから移行したDWH、Snowflake(移行についてはSNOWDAY JAPANで発表させていただきました)に実装されているTimeTravel機能ですが、これは非常に便利な機能です。 どういう機能かはSnowflakeを使われた方なら存知だとは思いますが、簡…
REVISIOのエンジニア片岡です。 当社では創業以来、ビジネスの根幹であるテレビ視聴データを格納・処理するデータウェアハウスとしてAmazon Redshiftを使ってきました。 約7年の間、Redshiftの機能の進化に合わせ、クラスタータイプやサイズをアップデートし…
みなさん、Snowflakeは使っていますか? 極めて合理的で高い性能を持っているDataWareHouse、Snowflake。 弊社ではメインのDWHとして採用し、その性能に非常に満足しています。 今回はSnowflakeで連番を作るのにサンプルとしてよく使われているSEQ関数につい…
はじめに こんにちは、データアナリティクスチームのHuangです。 SQL関連について記事を書きました。 データの抽出となるとSQLはほぼ毎日のように使われている言語ではありますが、実際の仕事現場では教科書に載っているようなケースがほとんど存在してませ…
Google TrendsのデータでテレビCMの(ウェブ検索数への貢献の)効果を推定するアプローチを紹介します。
はじめに こんにちは。データサイエンティストの曽我です。 Redashというダッシュボードツールがあるのですがご存知でしょうか。 ダッシュボード機能だけではなく、クエリをパラメータで動的に変更できたりする優れものです。そんな便利なRedashですが、Reda…
はじめに データサイエンティストをしている曽我です。 弊社ではテレビ番組やテレビCMの見られ方に関して様々なデータを取得しています。 取得したデータからビジネス課題を解決するために指標を作りクライアントへ提供をしている会社になります。 指標には…
久しぶりのブログになってしまいました。 開発チームのエンジニア、片岡です。 今回は、ユニットテストにおける時間の問題についてのTipsです。 ユニットテストを行う際に手間のかかる作業として、テスト用環境の構築があります。 今はDockerがあるのでかな…
はじめに モデルの学習 変数重要度 Partial Dependence Plot まとめ 参考 はじめに こんにちは、データサイエンティストの森下です。 本記事では所謂ブラックボックスモデルを解釈する方法を紹介したいと思います。 RF/GBDT/NNなどの機械学習モデルは古典的…
はじめまして。データサイエンティストの森下です。 TVISIONでは探索的にデータを見てく段階では、可視化に加えて複数の回帰モデルを作成して検討する、ということをよくやっています。 モデルの数が少ない場合は個別にモデルを作成してsummary()で見ていく…
こんにちは。データサイエンティストのshobyです。 今回は、データ分析の信頼性をチームで上げるために、皆でコードレビューをするモブレビューを導入した話をご紹介します。 モブレビューを導入することにより、分析要件や分析手法の妥当性をチームとして保…
こんにちは。データサイエンティスト兼、データ基盤エンジニアのshobyです。 今回は、RedShiftでETL処理向けに、擬似的にJSON型のカラムを持つViewを作成する方法をご紹介します。 擬似JSON型のカラムを使用することで、データマートへデータを移す際のデー…
こんにちは、エンジニアの taross-f です。 弊社では様々なログデータをAWS Batch, AWS Lambda, AWS Data Pipeline などを組み合わせてETLを行っています。 その中で先日Datapipelineを触っていろいろハマるポイントがあったので、同じ気持ちになる人を減ら…
こんにちは。データサイエンティスト兼、データ基盤エンジニアのshobyです。 今回は、DataGripからAmazon Athenaを使用する方法をご紹介します。 概要 DataGripとAthenaについて DataGripからAthenaを利用する DataGripとAthenaについて DataGripはJetBrains…
こんにちは。データサイエンティスト兼、データ基盤エンジニアのshobyです。 RedShiftの日時処理、紛らわしいですよね。 今回は、RedShiftで日時処理をする際の注意点をご紹介します。 概要 現在日時取得の注意点 曜日取得の注意点 日時間隔取得の注意点 現…
こんにちは。データサイエンティスト兼、データ基盤エンジニアのshobyです。 TVISION INSIGHTSでは、本番環境と開発環境でAWSのアカウントを分けて運用しており、 時折本番ログデータを開発用S3バケットにコピーする必要が生じています。 別アカウントの別バ…
こんにちは。データサイエンティスト兼、データ基盤エンジニアのshobyです。 皆さんは、RedShiftで小数点数を扱う際に、どのような型を使用していますか? 今回は、固定精度で小数点数を扱うことのできるDECIMAL(NUMERIC)と、その有効桁数についてご紹介し…
はじめまして、最近TVISION INSIGHTSにジョインしたエンジニアの taross-fです。 前職ではソーシャルゲームの会社で主にC#を書いて過ごしていましたが、現在はデータベースからAWSからいろいろ触っていて、必死に楽しく日々を過ごしています。 他メンバーのp…