在分析資料時,應該從哪個層級開始?
應該從微觀的個體層級資料開始分析。
如何載入 accommodation_info.csv 的資料?
執行程式碼:import pandas as pd df_info = pd.read_csv('accomodation_info.csv', index_col=0, parse_dates=[0])
1/89
p.20
病患行為模式分析

在分析資料時,應該從哪個層級開始?

應該從微觀的個體層級資料開始分析。

p.4
數據載入與初步分析

如何載入 accommodation_info.csv 的資料?

執行程式碼:import pandas as pd df_info = pd.read_csv('accomodation_info.csv', index_col=0, parse_dates=[0])

p.27
條件篩選與病患名單生成

如何列出符合條件的病患?

使用 NumPy 和 Pandas 進行病患 ID 的出現次數計算,並根據住院天數的閾值篩選病患,最後將結果轉換為資料框架格式。

p.12
分佈情況與統計特徵

如何觀察住院者的使用次數分佈?

可以將資料畫成直方圖,使用 Python 函式庫 matplotlib 的 hist 函數來繪製。

p.20
病患行為模式分析

為什麼主要病患的行為模式分析重要?

因為主要病患雖然數量少,但就診頻率非常高,對於醫療決策有重要影響。

p.24
疫情前後病患行為變化

如何確認資料切割的正確性?

顯示 df_info_pre 的內容,並檢查 df_info_pre 與 df_info_post 的元素總數是否與 df_info 一致。

p.18
統計分析方法

在使用 polyfit 函數時,weight 參數的意義是什麼?

weight 代表擬合曲線時的權重,值越大表示擬合時的權重越強。

p.13
數據可視化技術

hist函數的參數有幾個?

hist函數的參數共有三個,分別是篩選病人ID的頻率、區段數(21),以及指定圖表顏色(k代表黑色)。

p.26
條件篩選與病患名單生成

在程式碼中,如何設定住院天數的閾值?

在參數設定的部分,將變數 threshold_post 設定為 50。

p.17
冪次定律分佈與柏拉圖法則

進行冪次定律分佈分析時需要準備哪些資料?

繪製直方圖後輸出的 x_hist 與 t_hist。

p.25
數據可視化技術

散佈圖中顯示的每個值代表什麼?

每個值顯示了病患 ID 與其排名。

p.15
分佈情況與統計特徵

為什麼了解分佈情況對資料分析重要?

了解分佈情況有助於在拿到資料後,判斷資料屬於哪種分佈,從宏觀的角度觀察整體資料。

p.10
統計分析方法

程式碼中如何計算病人 ID 的平均值、中位數、最小值與最大值?

使用 pandas 的 value_counts 函數計算病人 ID 的出現頻率,然後利用 mean、median、min 和 max 函數輸出相應的統計值。

p.19
疫情前後病患行為變化

在疫情蔓延或其他重大事件發生時,分析病患行為的變化有多重要?

分析病患行為的變化是非常重要的工作。

p.22
疫情前後病患行為變化

從前 10 名病患的圖表中可以觀察到什麼趨勢?

疫情爆發後,他們的就診次數不減反增。

p.23
病患行為模式分析

如何確認主要病患的行為模式?

我們將範圍縮小至就診頻率較高的主要病患,並以2020年3月1日作為疫情爆發前後的分界點,視覺化每位主要病患的累積就診次數。

p.18
統計分析方法

為什麼在設定 epsiron 時需要考慮 x_hist 的值?

因為當 x_hist 的值為 0 時,取 log 會導致無限大的負數出現,因此需要設定 epsiron 來避免這種情況。

p.13
數據可視化技術

第二個參數「21」代表什麼?

它代表將最大值與最小值之間的數值切割成21個區段。

p.25
病患行為模式分析

如何計算所有病患 ID 的出現次數?

使用 value_counts() 方法來計算預先和疫情後的病患 ID 出現次數。

p.11
分佈情況與統計特徵

為了進一步掌握整體資料,應觀察什麼?

應觀察所有數據的分佈情況。

p.15
分佈情況與統計特徵

社交媒體上的朋友數量呈現什麼樣的分佈?

社交媒體上的朋友數量呈現冪次定律分佈,與社會網路有顯著的相關性。

p.3
疫情對病患住院情況的影響

疫情爆發後,住院人數的變化是什麼?

住院人數曾一度下降,但隨著新的治療方案及病患回診提醒系統的引進,病患人數有逐漸回升的趨勢。

p.9
分佈情況與統計特徵

如何計算病患住院次數的平均值、中位數、最小值與最大值?

透過統計方法,將所有病患的住院次數相加後除以病患總數可得平均值;將住院次數排序後找出中間值可得中位數;最小值為最少住院次數,最大值為最多住院次數。

p.19
數據可視化技術

如何比較不同科別的病患數量變化?

使用 plt.plot() 繪製各科別的病患數量隨時間變化的圖表。

p.28
醫療決策分析背景

上述程式碼將符合條件的病患 ID 、病患姓名、疫情爆發前的住院天數和爆發後的住院天數存入哪些變數?

存入變數 list_id 、 list_name 、 list_date_pre 和 list_date_post。

p.14
冪次定律分佈與柏拉圖法則

如何利用冪次定律分佈預測未來的醫療需求?

觀察整體的就醫分佈後,發現法則存在,掌握醫療資源的使用趨勢,便能進一步預測未來的需求。

p.5
疫情對病患住院情況的影響

這份資料包含哪些病患信息?

病患入院時間、病患姓名、對應病患的 ID、病患掛號科別(A至D四種)、自費住院的費用。

p.16
數據載入與初步分析

在程式碼中,如何設定參數?

參數設定為 epsiron = 1 和 num = 15。

p.5
疫情對病患住院情況的影響

接下來的分析將觀察什麼變化?

觀察疫情爆發前後的病患住院情況變化。

p.15
分佈情況與統計特徵

冪次定律分佈通常出現在什麼情況下?

冪次定律分佈通常出現在病患累積的就醫次數或醫療費用上,少數病患會占據多數資源。

p.6
數據可視化技術

在時間軸資料可視化中,最重要的兩大主軸是什麼?

時間與分佈情況

p.10
數據載入與初步分析

在程式碼中,value_counts 函數的作用是什麼?

value_counts 函數用於計算資料中每個病人 ID 的出現頻率。

p.19
條件篩選與病患名單生成

如何篩選出科別 A 的資料?

使用程式碼 print(df_info[df_info['科別']=='A']) 來篩選科別 A 的資料。

p.21
數據可視化技術

如何依照時間順序整理第 11 到 20 名病人的每月使用頻率?

同樣使用 matplotlib 繪製圖表,透過迴圈選取第 11 到 20 名病人 ID,並使用 resample('M').count() 進行每月統計。

p.13
數據可視化技術

直方圖的橫軸和縱軸分別代表什麼?

橫軸代表頻率(使用次數),縱軸代表採樣數(使用者人數)。

p.17
冪次定律分佈與柏拉圖法則

如何將冪次定律分佈公式轉換成對數形式?

log p ( x ) = ax + b

p.16
冪次定律分佈與柏拉圖法則

在繪製擬合曲線時使用了哪種方法?

使用了最小平方法來算出參數。

p.5
疫情對病患住院情況的影響

在新冠疫情爆發之前,哪個科別所收治的病人相當多?

B科別所收治的病人相當多。

p.25
數據可視化技術

如何改善散佈圖的可觀察性?

可以將顯示病患 ID 與排名的程式碼設定為註解,以得到較易觀察的結果。

p.7
數據可視化技術

如何使用 matplotlib 畫出每月使用者人數的曲線圖?

使用以下程式碼:import matplotlib.pyplot as plt; plt.plot(df_info.resample('M').count(), color='k'); plt.xticks(rotation=60); plt.show()

p.10
統計分析方法

如何在程式碼中輸出病人 ID 的統計值?

使用 print 函數輸出平均值、中位數、最小值與最大值。

p.21
數據可視化技術

如何依照時間順序整理前 10 名病人的每月使用頻率?

使用 matplotlib 繪製每位病人的每月使用頻率圖,透過迴圈選取前 10 名病人 ID,並使用 resample('M').count() 進行每月統計。

p.22
疫情前後病患行為變化

這段文字的重點是什麼?

可以觀察到病患在疫情前後的就診行為模式的變化。

p.23
數據載入與初步分析

在進行分析之前需要做什麼?

首先需將資料分為疫情爆發前後兩部分,並分別計算這兩部分的累積就診次數。

p.18
統計分析方法

在擬合區間中,如何指定使用的資料範圍?

擬合區間使用 num 來指定,而不是使用整體的資料範圍。

p.26
數據可視化技術

如何可視化疫情爆發前後的病患資料?

使用散點圖,將疫情爆發前後的病患住院天數進行比較,並根據條件標記顏色。

p.11
分佈情況與統計特徵

在觀察結果時,最小值和最大值的意義為何?

最小值和最大值是點狀資料,並非整體資料,僅能作為推測的結果。

p.8
數據載入與初步分析

在進行資料分析之前,通常需要做什麼?

通常情況下,資料必須先經過一些前置處理才能分析。

p.7
數據可視化技術

如何使用 matplotlib 畫出每月業績的曲線圖?

使用以下程式碼:import matplotlib.pyplot as plt; plt.plot(df_info['金額'].resample('M').sum(), color='k'); plt.xticks(rotation=60); plt.show()

p.12
數據可視化技術

使用哪個 Python 函式庫來繪製直方圖?

使用 matplotlib 函式庫。

p.19
數據可視化技術

如何繪製科別 A 的病人 ID 分佈直方圖?

使用程式碼 x_a = df_a['病人 ID'].value_counts() 及 plt.hist(x_a, 21, color='k') 繪製直方圖。

p.14
冪次定律分佈與柏拉圖法則

冪次定律分佈是什麼?

當樣本數(病患人數)集中在0附近,隨後逐漸銳減的分佈情況稱為冪次定律分佈。

p.11
分佈情況與統計特徵

在這個結果中,平均值和中位數的差異為何重要?

平均值約 13 次,但中位數卻是 7 次,顯示出數據分佈的不均勻性,需謹慎看待。

p.28
醫療決策分析背景

完成上述流程後,可以進行什麼操作?

可以列出符合條件的病患,並進行進一步的醫療方案制定。

p.5
疫情對病患住院情況的影響

新冠疫情爆發後,病患人數和費用有何變化?

病患人數減少,費用也有所調降。

p.16
數據可視化技術

如何在直方圖上繪製擬合曲線?

使用 plt.plot() 函數將擬合曲線繪製在直方圖上。

p.8
疫情對病患住院情況的影響

疫情對業績和住院者人數的影響是什麼?

疫情爆發導致業績與使用者人數(住院者)都銳減。

p.4
數據載入與初步分析

分析資料的第一步是什麼?

載入資料。

p.3
數據載入與初步分析

你已經拿到哪些資料來進行分析?

你已經拿到這幾年來的門診住院資料,可以根據這些資料開始分析。

p.24
條件篩選與病患名單生成

如何重設資料框的索引值?

使用 df_info.reset_index() 方法來重設索引值,使其變成一個欄位名稱。

p.22
疫情前後病患行為變化

第 11 至 20 名病患的就診次數表現如何?

雖然有部分時期的就診次數突然上升,但疫情前後的數據整體表現疲弱。

p.17
冪次定律分佈與柏拉圖法則

冪次定律分佈的出現機率公式是什麼?

p ( x ) = Ae ( a < ax 0)

p.16
冪次定律分佈與柏拉圖法則

繪製近似曲線的第一步是什麼?

第一步是算出近似曲線的參數。

p.11
分佈情況與統計特徵

當數據呈現均勻分佈時,平均值和中位數的關係如何?

在均勻分佈下,平均值與中位數有很高的機率一致。

p.26
數據載入與初步分析

在程式碼中,如何獲取病患的出現次數?

使用 value_counts() 方法來計算病患 ID 的出現次數。

p.8
數據載入與初步分析

如何利用 Python 的 pandas 函式庫進行資料彙整?

可以使用函數 resample 將參數指定為 M,代表以「月」為彙整單位,然後使用 sum 函數輸出總和,count 函數輸出頻率。

p.3
病患行為模式分析

某私立醫院的背景是什麼?

這間醫院位於○北市,擁有300張病床。

p.20
病患行為模式分析

如何分析主要病患的行為模式?

使用 value_counts 函數取得病患 ID 的 index,然後依序取得第 1 名至第 10 名的資料,並依照時間順序整理這些資料以便比較。

p.24
條件篩選與病患名單生成

如何根據特定日期篩選資料?

使用條件 df_info[df_info['日期'] < target_date] 來篩選疫情爆發前的資料,使用 df_info[df_info['日期'] >= target_date] 來篩選疫情爆發後的資料。

p.18
統計分析方法

最小平方法中,如何利用 polyfit 函數計算參數 a 與 b?

需要將 t_hist 轉換為各區間的中點,然後使用 numpy 的 polyfit 函數,將 t 作為輸入 x,log(x_hist) 作為輸入 y,並設定 weight 為 x_hist。

p.28
數據載入與初步分析

如何將上述資料儲存為 CSV 格式的檔案?

執行 pd.to_csv('檔案名稱') 函數即可。

p.14
冪次定律分佈與柏拉圖法則

提升醫療服務效率的策略是什麼?

應考慮多關注就診頻率較高的病患,這可能比吸引新病患更有效。

p.13
病患行為模式分析

資料集中在哪一端?

資料幾乎都集中在左端,大部分的使用者只使用過一次或很少的次數。

p.25
數據可視化技術

散佈圖的橫軸和縱軸分別代表什麼?

橫軸代表疫情爆發前的住院次數,縱軸代表疫情爆發後的住院次數。

p.15
分佈情況與統計特徵

常態分佈在自然界中有什麼特徵?

常態分佈是自然界中最常見的分佈之一,資料通常會集中在平均值附近,例如小學一年級學生的身高與體重。

p.2
統計分析方法

取得資料之後的第一件事是什麼?

統計分析的第一步是進行統計分佈的可視化與分析。

p.12
數據可視化技術

繪製直方圖的程式碼範例是什麼?

import matplotlib.pyplot as plt x = df_info['病人 ID'].value_counts() x_hist, t_hist, _ = plt.hist(x, 21, color='k') plt.show()

p.20
病患行為模式分析

如何取得病患的就診資料?

透過 value_counts 函數來取得病患 ID 的 index,然後篩選出相應的資料。

p.14
冪次定律分佈與柏拉圖法則

柏拉圖法則或8020法則是什麼?

少數病患佔據較多的就醫次數的分佈,稱為柏拉圖法則或8020法則,即八成業績由兩成顧客創造的法則。

p.26
條件篩選與病患名單生成

如何根據條件分類病患?

透過計算病患 ID 的出現次數,並根據住院天數是否超過 50 天來標記病患,超過的用紅色標記。

p.17
冪次定律分佈與柏拉圖法則

在冪次定律分佈中,如何利用最小平方法進行曲線擬合?

將公式簡化為二項式後,利用最小平方法讓曲線逼近直線。

p.11
分佈情況與統計特徵

如果數據分佈不均勻,會發生什麼情況?

如果使用次數較少的人數偏多,平均值與中位數會產生差距。

p.25
疫情前後病患行為變化

從散佈圖中可以得出什麼結論?

多數主要病患在疫情爆發前後的就診行為模式沒有顯著變化,但部分病患的行為模式發生了明顯的變化。

p.23
疫情前後病患行為變化

疫情爆發前後病患的就診行為有何變化?

我們發現病患的就診行為在疫情爆發前後出現了明顯變化,不同科別的病患具有不同的行為模式,這些行為模式各有其特徵。

p.16
冪次定律分佈與柏拉圖法則

如何計算分佈的近似曲線?

計算分佈的近似曲線需要推導出描述資料分佈的公式,然後通過算出近似曲線的參數和依照該參數繪製曲線兩個步驟來完成。

p.11
統計分析方法

如何計算平均值和中位數?

平均值是所有使用次數總和除以使用者人數總和;中位數是由大至小排列使用次數時,落在正中央的使用次數。

p.28
數據分析技術

下⼀章將利用什麼方法進一步分析這些資料?

將利用機器學習的方法進一步分析這些資料。

p.13
病患行為模式分析

為什麼平均值會較接近最小值?

因為很多使用者的使用次數集中在0的附近,只有少數使用次數非常高的使用者。

p.15
分佈情況與統計特徵

什麼是均勻分佈?

均勻分佈是指各種情況出現的機率相等,例如擲骰子的點數或輪盤的數字出現機率。

Study Smarter, Not Harder
Study Smarter, Not Harder