處理異常數據（可批量，縮尾或直接刪除）|stata怎麼

欄目: IT科技 / 發佈於: / 人氣:2.02W

winsor var1, gen(var11) p(.05) 先安裝這個命令後可以直接用

大家在寫論文時可能經常會遇到大數據樣本中異常數據批量剔除的問題，本文在於向大家推薦在Stata中運用winsorize方法，來對數據進行處理（縮尾使數據平滑，或直接刪除），經試驗有效，希望有所幫助。

材料/工具

Stata（網上有面安裝款，解壓能直接執行），實驗數據

比如對變量size在1%的水平下進行winsorize處理，並生成新變量size_w，命令爲winsor size,gen(size_w) p(0.01)，像這些比較基礎的問題一把都可以直接搜到答案的

方法

開啟stata，在命令行輸入ssc install winsor2, replace，自動安裝 winsor2

一個分類進行描述統計的命令（sum的進階版）： tabstat price weight length, by(foreign) stat (me sd N) nototal longstub 按照foreign分類，對 price weight length進行描述統計，統計量分別包括me（均值） sd（標準差） N（樣本數）星號不

準備數據（注意輸入格式）

如果要對多個變量縮尾，例如下。對一個變量縮尾也是一樣。 local vlist "roe size lev" foreach v of local vlist{ winsor `v', gen(`v'_w) p(0.01) }

匯入數據File-Inport

winsor var1, gen(var11) p(.05) 先安裝這個命令後可以直接用

輸入命令winsor2 變量名變量名, replace cuts(1 99)，此條命令是先找到各個變量的1%，99%所對應的分位數，比如對於變量ac1，其分位數分別爲a、b，那麼將數據中小於a的數替換成a，將大於b的數替換成b，原始數據直接變爲新數據，這樣就是縮尾，使數據平滑（口徑爲1%）。若輸入命令winsor2 變量名變量名, replace cuts(1 99) trim，則不替換，將小於a和大於b的直接刪除

stata數據分析。在規定條件下，傳感器校準曲線與擬合直線間的最大偏差（ΔYmax）與滿量程輸出（Y）的百分比，稱爲線性度（線性度又稱爲“非線性誤差”），該值越小，表明線性特性越好。表示爲公式如下： δ=ΔYmax/ Y*100%? ±1%表示最大偏差ΔYmax爲

最後一張圖顯示的是命令winsor2 ac1 ac2, replace cuts(1 99) trim命令的執行結果，大家看到數據表中的“.”，即是刪除完異常值後的結果，批量處理後可以File-Export將數據匯出，在Excel上排序後即可將其刪除（或在STATA上用其他命令也可）

比如對變量size在1%的水平下進行winsorize處理，並生成新變量size_w，命令爲winsor size,gen(size_w) p(0.01)，像這些比較基礎的問題一把都可以直接搜到答案的

擴展閱讀，以下內容您可能還感興趣。

怎麼在stata中將數據縮尾10%處理？最好寫出程序代碼，O(∩_∩)O謝謝！

winsor var1, gen(var11) p(.05)

先安裝這個命令後可以直接用本回答被提問者和網友採納

所有連續變量進行1%縮尾處理是什麼意思？

stata數據分析。

在規定條件下，傳感器校準曲線與擬合直線間的最大偏差（ΔYmax）與滿量程輸出（Y）的百分比，稱爲線性度（線性度又稱爲“非線性誤差”），該值越小，表明線性特性越好。表示爲公式如下：

δ=ΔYmax/ Y*100%?

±1%表示最大偏差ΔYmax爲滿量程輸出Y的±1%

拓展：其他相關精度誤差定義如下：

1.絕對誤差：實測值與理想值之差；

2.相對誤差：被測點的絕對誤差與被測點的理想值之比；

3.引用誤差：被測點的絕對誤差與基準值（量程）之比；

4.基本誤差：在標準條件下，基準值（量程）範圍內的引用誤差；

5.線性誤差：實測曲線與理想直線之間的偏差；

6.精度：由傳感器的基本誤差極限和影響量（如溫度變化、溼度變化、電源波動、頻率改變等）引起的改變量極限確定。

7.線性範圍：傳感器在線性工作時的可測量範圍。

stata中的數據縮尾調整怎麼弄？具體的程序是什麼？

help winsor

怎樣用STATA對數據進行Winsorize

比如對變量size在1%的水平下進行winsorize處理，並生成新變量size_w，命令爲winsor size,gen(size_w) p(0.01)，像這些比較基礎的問題一把都可以直接搜到答案的

STATA中如何將foreach循環和縮尾處理結合起來一次性對多個變量進行縮尾

一個分類進行描述統計的命令（sum的進階版）：

tabstat price weight length, by(foreign) stat (me sd N) nototal longstub

按照foreign分類，對 price weight length進行描述統計，統計量分別包括me（均值） sd（標準差） N（樣本數）

星號不知怎麼一併加進去，你檢測完手工加吧……追問我不是要做描述統計啊。。。

Tags：縮尾 stata 批量