graph twoway line wage educ
*“graph twoway”命令可以带别的后缀,例如 “graph twoway line” 则画的是线状图。
graph matrix wage educ *了解更多的变量之间的关系 graph matrix wage educexper
graph bar (mean) wage, over (educ) *了解y的平均值关于x分布的柱状图。
list gender-read in 1/15 *取1到15列数据列表
summarize read math science write
*read math science write的均值方差啊等信息 summarize if read >= 60 *所有read大于60的均值方差 summarize if prgtype == \*所有prgty1pe == \的均值,方差 summarize read, detail
*有关read的均值和方差,以及具体分布
*Summarizing the data by group tab prgtype
*鎬荤粨prgtype鍐呭悇缁勬儏鍐? bysortprgtype: summarize read write *涓嶆噦...
tabstat read write math, by(prgtype) stat(n mean sd)
*Correlations
correlate write read science
*modifying the data order id gender
label variable schtyp \ *插入标签
rename gender female *重命名
gen score=read+write+math
*在分析的过程中,有些变量并没有在数据中提供,需要我们用原始数据或者回归的结果构造。
gen score2=score^2 gen pass=1 if score>=150 *生成pass=1,当成绩过150时
*egen命令相对复杂一些,它能生成一些“gen”命令无法生成的变量。 egenwagesum=sum(wage) *生成wagesum 为每个人的工资和 egenwagemedian=median(wage)
*生成 wagemedian 为工资的中位数(median) egenwagemax=max(wage) *生成wagemax 为工资的最大值
egenwagemaxeduc=max (wage),by (educ)
*产生一个变量“wagemax”为相同教育水平里的最高工资 *replace
*我们需要替换某一变量,我们可以用的命令是“replace”
gen wagehigh=1 if wage>=10 replace wagehigh=0 if wagehigh ==.
*有时候我们在生成变量时可以加上一定条件,例如如果一个样本工资超过3,我们就定义它的变量wagehigh 的取值为1,否则为0。 *注意是两个等号
drop if read<40 drop schtyp
*drop命令去掉过程中的暂用的变量,以方便我们浏览数据和重新定义变量
count if wage<100 count if wage<10
*我们可以用“keep”或“drop”命令来删除一些样本,在删除之前,我们需要了解删除带来的影响,则可以用“count”命令来了解样本取值的情况。
*Creating dummy variables
*可以用“sort”和“list”命令来了解数据分布的细节 sort prgtype *排序
xi, prefix() i.prgtype * sort wage list wage in 50/70
*工资值从小到大排列在第50到70的样本的工资值。 keep if wage<100 drop if wage>=100
*想保留工资小于100的样本,可以有上面两种命令
*Generating variables egenavgscore=mean(score)
*生成avgscore为成绩的均值
egenavggroupscore=mean(score), by(prgtype)
*生成一个avggroupscore为在相同prgtype水平下的均值
ttest y1=y2
*检验变量y1和y2的平均值是否相等 signtest y1=y2
*秩检验,检验变量y1和y2的中值是否相等。检验y1的中值是否为5可用如下命令 ttest write, by(female) *
correlate wage educexper tenure *报告变量之间的相关系数
*Regression reg write read female *进行 OLS 回归
*表格中最后两行报告回归的斜率和截距的系数,相应的标准差、t值和P值,同时给出95%的置信区间。
*在表格左上方,报告了回归的总变异、解释变异和残差变异。 *表格右上方报告回归的R方和调整后的R方。