Topics

Hadoopの魅力と可能性について、Cloudera社の川崎講師とNECラーニング 講師の土井にインタビューしました

今話題のHadoopについて、Cloudera株式会社 川崎達夫講師(エデュケーションサービスマネージャー)と弊社講師の土井にインタビューしました。

Hadoopとは何か、その魅力と可能性について詳しく語っています。また、講師の立場から、これからHadoopを学ぶ方のために、より楽しむために必要な技術や、学ぶためのコースフローについてもご紹介しています。

ぜひご一読ください。

※本記事は、2012年2月時点の情報をもとに構成しています。

Hadoopの魅力と可能性

インタビューの様子

2012年2月
インタビュアー:
弊社テクノロジー研修事業部
グループマネージャー 山崎明子

山崎:
今日は最近話題のHadoopについてClouderaの川崎講師をお呼びし、弊社講師の土井を交え対談を行います。
Hadoopといえばオープンソースの分散処理ミドルウェアとして知られており、最近はニュースでもよく耳にするようになりました。まず、川崎さん、簡単にHadoopについてご説明頂いてもよいでしょうか?
川崎達夫氏(以下、川崎氏):
本日はお招きいただきましてありがとうございます。Clouderaの川崎でございます。
Hadoopについて簡単にご説明申し上げます。Hadoopの正式名は、Apache Hadoop(以下、Hadoop)といい、その名の通り Apache Software Foundationで開発、公開されているオープンソースプロジェクトです。世界各国のデベロッパーがこのプロジェクトに参加し、大規模データを集約・統合・解析するためのプラットフォームとしての「Hadoop」を開発しています。
Hadoopは、分散ファイルシステム「Hadoop Distributed File System(HDFS)」と並列分散処理を支援する「MapReduce」という二つのキーテクノロジーを中心として構成されています。
HadoopはもともとApache NutchというWebの検索エンジン用に開発されました。Webの検索エンジンは世界中のWebのページを取得、保存し、インデックスを作成しなければならないので、大量のページ情報(データ)を保存して処理する必要があります。このNutchを大規模にスケールさせるため、Googleが公開したGoogle File System(GFS)とMapReduceの論文を元に、Nutch の開発者の一人 Doug Cuttingがオープンソースで実装したのが始まりです。
その後HadoopはApache プロジェクトの一つとして独立し、Yahoo!やFacebook、Twitterなどで利用されるようになりました。現在では国内外の世界的なメガバンクや大手クレジット会社、大手流通業でのログ分析やリスク管理処理、大手サイトのレコメンド処理等にも広く使用されており、高い実績をいただいています。現在Doug Cutting はApache Software Foundation のチェアマンとして、あるいはClouderaのチーフアーキテクトとして、今でもHadoopの開発に関わっています。
Cloudera株式会社 エデュケーションサービス マネージャー 川崎達夫氏

Cloudera株式会社
エデュケーションサービス部
マネージャー兼シニアインストラクター
川崎達夫氏

2011年よりClouderaに勤務し、日本でのHadoop研修ビジネスの立ち上げに従事。従来よりOSSに強い関心を持っており、前職のRed Hat社ではカーネルインターナルやデバイスドライバ、パフォーマンスチューニング等、Linuxの上位トレーニング全般の講師を担当。

山崎:
今となっては、オープンソース界でそれをけん引する代表的なソフトウェアとなっていますが、川崎さんは、初めてこのHadoopを知った時、そのような印象をお持ちになりましたでしょうか?
川崎氏:
物凄い衝撃を受けたことを今でも覚えています。
もともと通信プロトコルの開発からUnix/Linuxの技術者を経て、20年以上最先端の技術に触れていますが、これほど大規模に分散処理を行えるミドルウェアには初めて触れました。
それこそ普通のPCを、1台から規模に応じて数百台、数千台と組み合わせて巨大なクラスタを形成することができます。これから誰もがこうしたクラスタを構築して大規模なデータ処理を手軽に実現できるようになるということを想像するだけでわくわくしますね!
土井正宏(以下、土井):
そうなんですよ。私の第一印象もまさに同じ感じです。
クラウド上の仮想インスタンスのおかげで、クラスタもずいぶん楽に作れるようになりましたし、一昔では相当なお金をかけなければ実現できなかったような処理を手軽に実現できるような時代になったのです。
これはもう技術者として触ってみるしかないです!(笑)
NECラーニング テクノロジー研修事業部 講師 土井正宏

NECラーニング
テクノロジー研修事業部
講師
土井正宏

2008年にNECラーニング入社。入社以来、主にデータベース関連のトレーニングを担当。最近はHadoopやクラウド、およびビッグデータの解析手法などに興味を持ち、コースの企画およびトレーニングの実施をおこなっている。

山崎:
土井さん、Hadoopは手軽という話ですが、比較的どのような技術を持っているとよりHadoopを楽しめそうでしょうか?
土井:
HadoopはLinux上で動作するミドルウェアですので、Linuxの基本的な操作ができるとよいですね。あと、Hadoopは大量のデータの分散管理と分散処理のためのソフトウェアですので、データの収集元であるDBやWebサーバーなどの知識があると、より楽しめます。
MapReduceのプログラムはLinux上で動作するアプリケーションの開発技術であれば基本的に問題がないので、Java、PHP、Ruby、Python、Perlの技術を持っていると、いろいろ楽しめます。
HadoopはMapReduceのプログラムを自動的に分散処理します。そのため、プログラマーは分散処理を意識したコードを書かなくても数百台のサーバー上でプログラムを動作させて、超高速処理を行うことができるのです。
山崎:
まさに最新、最高峰の技術を手軽に使用できるのですね。Hadoopは技術者の心をぐっとつかみそうです。
Hadoopを習得した技術者のニーズがかなり上がってきているとの話も聞きましたが、そのあたりはいかがでしょうか?
川崎氏:
考えてみればすぐに想像できる話ですが、生成されているデータ量は年々増加しています。調査データによると2015年には全世界で新規に生成されるデータ量は年間で8.4エクサバイトになるそうです。
大量にデータが増えることにより、多様なデータから価値を生み出すためにそのデータを処理するニーズが増えてきます。
Hadoopはオープンソースでありながら世界中の企業で使用されており、大量のデータを分散して並列に処理を行えるリーディングソリューションと言えると思います。そうなれば、Hadoopを習得した技術者がもてはやされないわけはありません。実際に米国ではHadoop エンジニアやデータサイエンティストの技術者育成が急務になってきています。
山崎:
コンピュータが世の中に生まれてから年間の新規生成データ量は減ったことはないですし、その生成されたデータを再利用することも非常に重要になってきますから、Hadoopのような分散処理技術は技術者として持っておきたい技術の一つだと思います。
土井さん、Hadoopを学ぶためのコースフローをご紹介いただいてもよいでしょうか?
土井:
先ほども述べましたが、HadoopはLinux上で動作するミドルウェアです。また、その上で動作するアプリケーションを開発する技術があると、まずはHadoopを学習できる前提ができると思います。
言語はLinux上で動作できるものでしたら何でもよいのですが、HadoopはJavaベースですので、Javaから学んだほうがよいかもしれません。
では、以下の通りコースフローをご紹介します。
山崎:
もともとベンダー系のトレーニングを中心に企画、開発、実施をしてきた私としては、たとえば、マイクロソフト製品とHadoop、OracleとHadoopといったようなOSS以外の製品やソリューションとの連携にもとても注目しています。
川崎氏:
Clouderaでは世界各国の企業とパートナー契約を結んでおり、最近ではOracle Big Data Applianceのコアテクノロジーとして、弊社のCloudera's Distribution including Apache Hadoop(以下、CDH)とCloudera Managerが採用されました。それ以外にもDell, IncやSillicon Graphics,Inc. などのサーバー系の企業や、NetAppなどのストレージベンダ―とも提携しています。
製品では、例えばNetezzaやTeradataともパートナーになっており、これらのDWH製品と連携するためのコネクタを無償で公開しています。
そうそう、Microsoft社のホームページからもCDHとMicrosoft SQL Serverを連携するためのコネクタがダウンロードできるようですよ。
山崎:
Hadoopの人気は日に日に高まっており、大量の技術者育成の話もちらほら聞くようになりました。弊社でも人気のコースなると思います。
また、コース受講者からは「Hadoopについての知識はほとんどない状態での受講でしたが、基礎から丁寧に教えてもらえてよかった。」や「Hadoopの概要を理解できてよかったです。仕事に活用できるレベルまで整理できました。」などのコメントもいただいており、反応も上々です。
ご興味がある方は弊社までお気軽にお申し付けください。
それでは最後に川崎さんから、これからHadoopを学ぶ方に一言いただいてもよいですか?
川崎氏:
Hadoopはまだ誕生してから6年ほどの若いソフトウェアですが、既に世界的な企業で採用されているようにポテンシャルが高いソフトウェアです。もうすぐリリースされる予定のCDH4では最新のApache Hadoopをベースとし、高可用性の対応、パフォーマンスの改善など多くの変更が行われる予定で、その可能性はさらに広がっていきます。
他方、何にでも利用できる万能なソフトウェアではありませんので、例えば既存のRDBやBI製品などと組み合わせ、それぞれの強みを生かすような使い方をすると良いのではないでしょうか。
技術的に見ても本当に魅力あるソフトウェアだと思います。オープンソースですからコードも公開されていますし、ぜひ皆さんも一度触ってみてください。
山崎:
川崎さん、土井さん、ありがとうございました。
弊社はCloudera社と提携し、今以上にHadoopの研修環境を整備してまいります。ぜひ、Hadoop人材の育成は弊社にお任せください。
■Cloudera社について
Clouderaは、いま最も注目されているオープンソース・Apache Hadoopのパッケージ製品を開発・提供しているテクノロジー企業です。お客さまのビジネス上のさまざまな課題解決を実現すべく、最先端技術とテクニカルサポートを提供します。
http://www.cloudera.co.jp/
■インタビュアー
NECラーニング テクノロジー研修事業部 グループマネージャー 山崎明子

NECラーニング
テクノロジー研修事業部
グループマネージャー 山崎明子

元々はマイクロソフト関連のトレーナーとしてコースの企画、開発、トレーニング実施をおこなうかたわら、各種技術カンファレンスでのスピーカーの担当やVB関連書籍の執筆も多数。現在は、マイクロソフトを主軸とした、各種ベンダー、クラウド、OSSなどに関する企業の人材育成コンサルティングをおこなっている。

NECラーニングのHadoop関連情報

特集/おすすめコースセレクション

お問合せ

ページの先頭へ戻る