階層・非階層クラスタ分析機能 ~データの隠れたパターンを自動発見、研究の新たな視点を提供~ ブラウザだけで使える無料統計ソフト Reactive stat に新搭載
エミュイン合同会社
更新日:2025/9/9
シルエット法による最適クラスタ数の自動決定機能とデンドログラム可視化により、探索的データ分析を強力サポート。研究者から実務者まで幅広く活用可能。
ブラウザだけで使える無料統計ソフト Reactive stat に、データの隠れた構造を発見する「階層クラスタ分析」と「非階層クラスタ分析(K-means法)」機能を新たに搭載いたしました。事前にグループ数を決めることなく、データが自然に持つ類似性に基づいて分類を行う教師なし学習手法で、マーケティングにおける顧客セグメンテーションから医学研究における患者分類まで、様々な分野で活用されています。特に注目すべきは、シルエット法とエルボー法を組み合わせた最適クラスタ数の自動決定機能です。従来は研究者の主観に依存しがちだったクラスタ数の決定を、統計的根拠に基づいて客観的に行うことができます。また、Rエンジンとの連携により、高度な統計計算処理を安定して実行できる環境を提供いたします。
データの隠れた構造を明らかにする、2つのクラスタ分析機能現代の研究現場では、大量のデータから意味のあるパターンを見つけ出すことが重要な課題となっています。今回新搭載したクラスタ分析機能は、この課題に対する強力なソリューションです。
階層クラスタ分析は、データポイント間の類似性を段階的に積み上げていく手法です。まるで家系図のような樹形図(デンドログラム)を作成し、データの階層的な関係性を一目で把握できます。クラスタ数を事前に決める必要がないため、「このデータには一体いくつのグループが隠れているのだろう?」という素朴な疑問から始められるのが大きな魅力です。
一方、非階層クラスタ分析(K-means法)は、指定したクラスタ数に基づいて効率的にグループ分けを行う手法です。大規模データでも高速に処理でき、明確な境界線を持つクラスタを形成します。「顧客を3つのセグメントに分けて施策を考えたい」といった実務的なニーズに最適です。
研究現場での具体的な活用シーン医学研究分野では、患者の症状データや検査値から病型分類を行えます。従来の診断基準では捉えきれない、データに基づいた新たな分類の可能性を探ることができるでしょう。
心理学研究では、アンケート調査の回答パターンから回答者のタイプ分けが可能です。個人の価値観や行動特性の違いを客観的に把握し、理論構築の基礎データとして活用できます。
マーケティング分野では、購買履歴データから顧客の行動パターンを発見できます。「よく買い物をする常連客」「特定商品のみ購入する専門客」「たまに高額商品を購入する贅沢客」といった具合に、データが自然に語りかけてくるグループ分けが可能になります。
シルエット法による科学的なクラスタ数決定従来のクラスタ分析では「何個のグループに分けるのが適切か?」という判断が研究者の主観に依存しがちでした。この課題を解決するのが、シルエット法による自動決定機能です。
シルエット法は、各データポイントが「本当に適切なグループに分類されているか」を数値で評価します。シルエット値が0.7以上なら「非常に適切な分類」、0.5以上なら「適切な分類」として判断できます。これにより、「なんとなく3つに分けてみた」ではなく、「統計的根拠に基づいて3つが最適」と言える分析が可能になります。
さらに、エルボー法も併用することで、より堅牢なクラスタ数決定を支援します。クラスタ内平方和の変化率を視覚的に確認し、最適な分類数を見つけ出せます。
使いやすさと高度な機能の両立技術的には高度でありながら、操作は直感的に行えるよう設計しました。データを読み込んで分析手法を選択するだけで、複雑な統計計算はバックグラウンドで自動実行されます。
距離計算方法も豊富に用意しており、一般的なユークリッド距離から、外れ値に頑健なマンハッタン距離、スケールの異なる変数に適したキャンベラ距離まで選択可能です。また、階層クラスタ分析では、球状で均等なクラスタ形成に適したウォード法を推奨設定としています。
データの前処理も自動化されており、標準化処理により変数間のスケールの違いを調整し、欠損値の処理も適切に行われます。研究者は分析の本質に集中できる環境を提供いたします。
可視化機能で直感的理解をサポート分析結果の理解を深めるため、多彩な可視化機能を搭載しています。階層クラスタ分析では、縦向き・横向きを選択できるデンドログラムに加え、最適クラスタ数での色分け表示も可能です。
非階層クラスタ分析では、重心を含む散布図表示により、各クラスタの特徴を視覚的に把握できます。また、シルエット分析図により、個々のデータポイントの分類品質も確認できます。
後続分析への展開も充実クラスタ分析は探索的分析の入り口です。発見されたグループ間の違いを統計的に検証するため、群間検定機能との連携も可能です。また、クラスタを新たな変数として多変量解析に活用することで、予測モデルの構築にも展開できます。
各クラスタの特徴を数値で確認できる統計表示機能により、「クラスタ1は変数Aが高く変数Bが低い傾向」といった具体的な解釈が可能になります。
研究の信頼性を高める配慮統計解析において重要な再現性についても配慮しています。階層クラスタ分析は決定論的手法のため完全に再現可能です。K-means法については、複数回実行機能(nstart設定)により、初期値依存の問題を解決し、安定した結果を得られます。
また、各手法の前提条件や注意事項も詳しく解説しており、適切な手法選択と結果解釈をサポートします。
ブラウザとデータファイルがあれば、すぐに解析できます・マニュアル本は要りません。
・すべての統計手法のページには、利用に必要な解説が載っていますし、必要な情報へのリンクも用意してあります。
・PCにソフトウェアをインストールする必要はありません。
・信頼性の高い R での結果が得られます。
・ウェブアプリで結果を得たあとに、そのデータを外部の R サーバーに送信し、その実行結果を得ることができます。
・外部の R サーバーに送信されるデータは、セキュリティを考慮し、数値計算に必要な最小限のセットとしています。また、送信前に内容を確認できます。自動的に送信されることはありません。
・常に最新バージョンのRを利用できます。
・結果がリアルタイムに反映されるウェブアプリですので、統計解析に不慣れな場合でも試行錯誤が容易です。
・データの内容を常に把握しながら作業が行えるように工夫してありますので、どうしたらいいかわからない、という状況に陥ることがありません。
・出力されるグラフはインタラクティブな高機能なものです。
・データファイルを読み込んで利用できます。
・CSV 形式データファイルおよびエクセルファイルに対応
・データファイルはブラウザ内部に読み込まれるだけで外部には送信されませんので、セキュリティの問題はありません。
・日本語のデータファイルを扱うことができます
・海外製のアプリですと、カラム名が日本語だと受け付けられないなどの制約がしばしばありますが、Reactive stat にはそのような制限はありません。
共用PCやタブレットでも
ソフトをインストールできない共用のPCや、iPad などタブレットでも実行可能です。
モバイルデバイスの場合は、 Google Drive, One Drive などのクラウドストレージからファイルを直接読み込むことができます。
読み込んだデータファイルの内容がそのままクラウドに送信されることはありませんので、個人情報を含むデータでも安心して解析できます。 共用PCの場合は、ログアウトすればすべて消去されますので安心です。
なお、R での解析やその結果を AI に解説させる機能では、クラウドに最小限のデータを送信しますが、統計解析に必要最小限のデータであり、個人情報が送信されることはなく、また、送信前にその内容を確認する手順になっていますので安心です。
スマートフォンでも
スマートフォンでも使えるように画面設計してあります!
最終的な統計解析を行うことを想定しているわけではなく、統計に不慣れなユーザーに手軽に親しんでいただくことが目的です。 専用のサンプルデータを解析手法ごとに用意していますし、 膨大な数の R のサンプルデータを簡単に検索して読み込めます。 また、できるだけ詳細に解説を付けてありますので、実際にデータを操作しながら統計を学んでいただくことが可能です。
Google Drive や One Drive のデータファイルを読み込めますので、ご自身のデータの解析して論文の原稿を書くこともできてしまいます!
インタラクティブな解析で理解が深まります
Reactive stat の名前の由来は
データの内容を常に確認しながら設定し、設定を変更するとリアルタイムにグラフなどが変化することが名称の由来です。
常にデータ内容を視覚的に把握しつつ解析を行えます
小さなヒストグラムなどで、しつこいほどにデータ内容を視覚的に示します。
統計処理においては、常にそのデータの性質、すなわち、カテゴリー変数なのか連続変数なのか、どのような分布をしているのかなどを把握しておく必要があります。
常にデータ内容を意識しつつ作業できますので、迷うことなく素早く正しい結果に到達できます。
すべての統計手法にデータと設定のサンプルを用意してあります
すべての統計手法のページには、 サンプルデータと設定の呼び出し ボタンが付いています。 これを押すと、典型的なサンプルデータと、そのデータに対する解析のための設定内容が読み込まれます。
その統計手法を初めて扱う場合でも、 どのような形式のデータが必要なのか、どのような形で結果が得られるのか、 サンプルを読み込んで実際に動かすころで理解が深まります。 そして、ご自身のデータをどう処理すればよいかがすぐに分かります。
信頼できる R の解析結果を AI に解説させて容易に理解できます
Reactive stat では、ほとんどの統計解析を R言語 (統計解析を主な目的とする専門的なシステム) を利用して行うことができます。
R は数多くの専門家が参画して作り上げられたシステムで、信頼性が高く、無料で利用できる素晴らしいものですが、なかなか敷居が高いです。 出力された解析結果も、英語で書いてあってわかりにくいです。
それを劇的に使いやすくしてくれたのが EZR ですが、インストールが必要だったり、やはり統計解析の初心者には難しいという声も聞かれます。
そこで、Reactive stat では、ブラウザでの簡単な操作で、インタラクティブに R による解析が行えるようにしてみました。 さらに、その解析結果を、AI に解説してもらう機能が付いています。
AI による解説には、そこで使われている統計手法の説明から、得られた結果の解釈、さらには学会発表や論文にどのように表現すればよいかまで含まれます。
論文や学会発表の準備が簡単になります
医療統計でよく使う統計手法を網羅しています
特に医療分野で頻繁に使われる統計手法を広くサポートし、また、医学論文で必要なグラフの作成が簡単に行えます。 今後、リクエストがあればさらに拡充してゆく計画です。
また、心理統計の領域で使われる手法も今後拡充してゆきます。
最新の R による解析結果が得られ、論文への記載が容易です
・論文発表や学会発表において、「統計解析はRで行いました」と書くことができます。・Rは通常、毎年2回 (4月と10月) バージョンアップされます。これらのリリースにはバグ修正などが含まれます。
・解析ごとに、R 本体および使用されたすべてのライブラリのバージョンを表示します。
・近年重要視されるようになった効果量の値の計算が多くの統計手法でサポートされています。
・論文にどのように書けばよいか、AI が教えてくれます。
論文や学会発表で必要なサマリー表がすぐに作成できます
ほとんどの臨床系の論文で必要とされる、症例の背景因子の表が、あっという間に作成できます。 一つ一つの因子を統計解析し、その数値をまとめて表にするのは、意外と手間のかかるのもです。 これを、本当にあっという間に作成してくれます。 ぜひお試しください。
ドラッグ&ドロップで項目を入れ替えたり、統計処理がパラメトリックとノンパラメトリックから選べたり、徹底的に使いやすさを追求しています。 使いこなしていただけると嬉しいです。
p値まで含んだ表が出力されますので、学会発表くらいなら統計処理がこの機能だけで済んでしまう場合もしばしばあります。
本当に「あっという間に」思い通りのサマリー表が作成できてしまいます!
多彩なチャートを簡単に作成できます
多く用いられるチャートを簡単に作成できるよう、チャート作成機能を充実させました。
対象ユーザー
・統計学には興味は無いが学会発表があるのでちゃちゃっとデータ処理を済ませたい方
・実際のデータを触りながら統計を学びたい初心者
・手持ちのデータを探索的に把握したい研究者
などなど、(統計学者以外の) あらゆる方が対象です。
統計結果のグラフは、設定の変更をリアルタイムに反映しますから、その理解が簡単です。 上の例にも示すように、ROC曲線における閾値の変化で、感度や特異度がどう変わるのか、実際にサンプルデータで試してみることで、その原理まで理解が深まります。
また、常にデータの内容を視覚的に示しつつ設定を進めてゆくという基本コンセプトですので、どうしていいかわからない迷子になってしまうことがありません。
Reactive stat により、統計嫌いが少しでも減ることを願っています。 そして、皆様の貴重な研究成果の発表のお手伝いができると嬉しいです。