メリット1 作業の効率をアップ
- zip圧縮されているファイル数が多い場合でも、自動で解凍されて そのままメモリ上で処理 されるため、ディスクIOが減り高速に処理することができます。またファイルをひとつづつ解凍する手間がなくなります。
- 分析に必要なレコード種別(RE、HO、SY、SI、IY、TO等)のみを抽出し、レセプトIDを付与してファイル化することができます。
- 元号表記を西暦表記に自動変換することができます。
- SQL文を使用して探索的な分析を行うことができます。
メリット2 個人情報の保護
- 氏名、生年月日、被保険者番号、住所等の個人情報は、消去またはハッシュ化(情報の一意性を保ちつつ不可逆的に暗号化)されて保護されます。
- サーバとクライアント(分析端末)間の通信経路はSSLで暗号化されるため、第三者に盗聴されることがありません。
メリット-3 システムの柔軟性
- カスタマイズによってさらにきめ細かいデータクリーニングを行うことができます。
- 医科、DPC、調剤レセプトを患者IDを付与して連結
- 疑いフラグ、死亡フラグを付与
- 各種マスタと連結
- 正規化されたデータ構造に変換
- データ量(患者数、分析期間等)に応じて、サーバの性能(≒コスト)を選択することができます。
メリット-4 豊富な統計処理関数
PostgreSQLに組み込まれている統計処理関数を使用することができます。
・corr(Y, X) 相関係数
・covar_pop(Y, X) 母共分散
・covar_samp(Y, X) 標本共分散
・regr_avgx(Y, X) 独立変数の平均値 (sum(X)/N)
・regr_avgy(Y, X) 依存変数の平均値 (sum(Y)/N)
・regr_count(Y, X) 両式が非NULLとなる入力行の個数
・regr_intercept(Y, X) 線型方程式に対する最小二乗法のY切片
・regr_r2(Y, X) 相関係数自乗値
・regr_slope(Y, X) (X, Y)の組み合わせで決まる最小自乗法に合う線型方程式の傾き
・regr_sxx(Y, X) sum(X^2) – sum(X)^2/N (依存変数の”二乗和”)
・regr_sxy(Y, X) sum(X*Y) – sum(X) * sum(Y)/N (依存変数×独立変数の”和”)
・regr_syy(Y, X) sum(Y^2) – sum(Y)^2/N (独立変数の”自乗和”)
・stddev_pop(expression) 入力値に対する母標準偏差
・stddev_samp(expression) 入力値に対する標本標準偏差
・var_pop(expression) 入力値に対する母分散(母標準偏差の自乗)
・var_samp(expression) 入力値に対する標本分散(標本標準偏差の二乗)