Apache Drill 1.4 がリリースされました

LINEで送る
Pocket

この記事は Apache Drill Advent Calendar 17日目の記事です。

2015年12月15日に Apache Drill 1.4 がリリースされました。

リリースノートの内容をお伝えしておきます。
Ap​​ache Drill 1.4 には 32 のバグ修正と機能拡張が含まれています。

Apache Drill 最新バージョンの重要な変更点:

クエリ毎にオプションを選択可能に
ストレージプラグインの設定オプションをクエリ毎変更することが出来るようになりました。例えば、CO.dat というファイルを select する場合、次のように使用することができます。

SELECT * FROM TABLE(dfs.`/path/to/CO.dat`(type => 'text'));

 

ヘッダーとCO.datのバージョンが利用可能な場合は、ファイルの最初のエントリは “extractHeader =>true” の引数を渡すことによって、列名として解析することができるようになりました。 fieldDelimiterに “|” を渡すことで区切り文字として使用できます。

SELECT * FROM TABLE(dfs.`/path/to/CO.dat`(type => 'text', fieldDelimiter => '|', extractHeader => true));

 

さらに lineDelimiterは改行コードのデリミッターとして使用することができます。この例では’||’を指定しています。

SELECT * FROM TABLE(dfs.`/path/to/CO.dat`(type => 'text', lineDelimiter => '||', fieldDelimiter => '|'));

CSVヘッダー解析の動作が改善
ヘッダー解析が有効な時に列が存在しない場合でもCSVファイルへのクエリは例外エラーが発生しなくなりました。Drill は対象列にNULL値を返します。

JSONフォーマット
より小さなな結果を得るには、変数store.json.writer.uglifyにtrueを設定することで変更することができます。:
ALTER SESSION SET store.json.writer.uglify = true;

ロギング
SQLクエリがdrillbit.logファイルに記録されるようになりました。

その他の改良点
スキーマの互換性についての強化やApache Hiveの効率的なサポート、Parquet file metadata のキャッシュが強化されました。