第1回 Vertica 勉強会 @ DeNA(Shibuya Hikarie)に参加して

Vertica Analytic Database *1 って何よ ?

Gartnerの”Market Definition”としてMagic Quadrant for Data Warehouse and Data Management Solutions for Analytics 12 February 2015には記されているが Magic Quadrant for Operational Database Management Systems 16 October 2014 にはない”database management system”です。*2
データベース管理システムの中でも関係データベース管理システムです。


ちょっと使ってみる程度にはインストールは不要です。Vertica on MapR Sandbox first impression - wmo6hash::blogAmazon Web Servicesでの Vertica Analytic Databaseの使い方 - wmo6hash::blog仮想アプライアンス Vertica Virtualized Analytic Databaseの使い方 - wmo6hash::blogVertica OnDemand Free Trialの はじめ方 - wmo6hash::blog仮想アプライアンス Hortonworks Vertica Sandboxの使い方 - その1 - wmo6hash::blogのいずれかをご覧になって持ち歩いてみたりインスタンスを生成してみたりして楽しんでみてください。*3


源となった C-Store: A Column Oriented DBMS in Database Group at MIT Computer Sciende and Artifical Intelligence LabのOverviewや Papers and Technical Reports C-Store: A Column Oriented DBMS *4 に書かれているような特徴であり設計思想の根幹は「読み取りに最適な配置を目的としてマテリアライズドビューのみで実装」にあります。*5 *6 その実装の名が「Projection」です。




わたしは「短く言われてもかわんねーよ!」という方の気持ちは痛いほどわかりますし、説明に何時間もかけることもあります。根本がわかりたい方は容赦なく何度もご自身が理解するまでお話してくださいますからね。
また「わかった」って言っている人がいると「わかんなかった」とは言いにくいから、ほんとはわかってなくても言わなかったりしますよね。


「マテリアライズドビューの概念と違うんじゃない?」という意見をお持ちの方もいるかと思いますが…

これは私の教科書*7です。“Only Materialized View”と しっかり書いてあり、違う違わないの話は、何かこのような根拠を持って話したいなって思います。


ここまでは第1回 Vertica 勉強会 : ATNDで触れられていなかったように感じたことに対して、私が言えることを書きました。

いずれにせよ「Projection」が わかった方と よくわからなかった方がいらっしゃっただろうなーと思いました。Vertica Analytic Databaseの記憶域属性設計と実装のサイクル - wmo6hash::blog も ほとんどわからなかっただろうなと思いました。

「Projection」の説明方法は引き続き工夫して改善し続けようと色々考えています。それが第二回以降で機会をいただけるなら自ら話すかもしれません。



主題

このようにお二人のお話はスライドが公開されています。

スライドに書かれていないことや闊達なQ&Aも含めての話ですが、“運用”は使い始める方や使っている方にはとても有益なお話ですし“活用したアナリスト業務”はユースケースとして前提やVertica Analytic Database利用に限らず どういった業務があるとかデータが存在してどう扱っているのかから考える基としてもお話は貴重でした。
個人的には同じ話を何度していただいても良いのではないかと思いますし、似たような話をしてくださる方が増えると嬉しいですね。


メモやお二人以外の方の話に関しては、他に書いていらっしゃる方々のブログなどをご覧ください。
第1回Vertica勉強会メモ - pandazx's blog
第1回Vertica勉強会に参加してきた - INPUTしたらOUTPUT!
第1回 Vertica 勉強会に行ってきた - wyukawa's diary
第一回 Vertica勉強会 - Go ahead!
第1回 Vertica 勉強会 - Togetter


懇親会含め隅でひっそりお聴きしていました。
こんなちっこいのを見つけて お話をしてくださった方に感謝しつつ、第二回以降の開催を期待しています。

同じ日の出来事

Michael Stonebraker氏がチューリング賞を受賞されたことが発表されましたね。

His work on column-oriented storage architecture resulted in systems optimized for complex queries (C-Store/Vertica)

Michael Stonebraker - A.M. Turing Award Winner
Michael Stonebraker wins $1 million Turing Award | MIT News
ACM Turing Award Goes to Pioneer in Database Systems Architecture — Association for Computing Machinery

*1:Context for Vertica Analytic Database - wmo6hash::blog

*2:データウエアハウス製品だって言う人もいるけど、個人的にはデータウエアハウスは概念です。その概念の元に使うべきソフトウエアかというと、それは概念実装としての使い方のひとつだと思っています。
またData Warehouseを日本語だとDWHって省略する人が多いけど、英語で省略されるときって目にするのはDWかWarehouseが圧倒的に多いので、個人的にはDWHって日本独自のなんか新しい意味や含みがあるんだろうなーと思っていますが、それが咀嚼出来かねるので自らは用いません。そこを一足飛びに Vertica Analytic Databaseのことを「Verticaはデーダブリューエッチです」とか言っている人いるのは知っていますが、私はそう発言したことは一度もないです。
また、日本ではそのDWHとやらを「大福帳」という表現もされます。大福帳は取引記録の生データを格納するようなイメージだそうですが、生データのままのデータ管理手法がデータウエアハウスの概念があてはまるかというと違うのではないかと思っています。
一方でデータウエアハウスの概念の一部としても考えられる分析向けデータ管理のソリューションというような言い方は、しっくりきます。

*3:わたしはインストールありきの考え方を持ちません。そもそもSQL文を発行するとかプログラミングするとかが先でインストールは誰かが行ったうえで使ってた製品がたくさんあります。もちろんインストールできなきゃ出来ることが限られるので、避けらて通れない道があることは知っています。でもそんなの知らなくてもいい人の方が多いし、インストールできないから何もできないなんてナンセンスな話だなぁと思っています。

*4:Mike Stonebraker, Daniel Abadi, Adam Batkin, Xuedong Chen, Mitch Cherniack, Miguel Ferreira, Edmond Lau, Amerson Lin, Sam Madden, Elizabeth O'Neil, Pat O'Neil, Alex Rasin, Nga Tran and Stan Zdonik. VLDB, pages 553-564, 2005.

*5:Cloudera World Tokyo 2014 D-3 CDH with HP Vertica Analytics Platform 表示スライド抜粋 8ページより

*6:http://en.wikipedia.org/wiki/C-Storeには“optimizing the database for reading”のみでマテリアライズドビューのことは書いてありませんが

*7:前出:Google BigQueryなどの仕組みを知りたいときの列指向データベースの説明に - wmo6hash::blog PDFはVLDB 2009 Tutorial on Column-Stores via Daniel Abadi in Yale University