forcode想看的


forcode看过的


新技术
新趋势
奇思妙想
科学探索
科幻奇幻
资料搜集
网络研究
统计定量
社会学研究
书摘读后感
数码网络
软件评测
数据指标
实用信息
有趣的东西
房地产
网络赚钱
投资创业
新闻评论
网站经营
电影八卦
美景美人
人物朋友
情感回忆梦
forcode生活

2007-06-07

070607-forcode共享ppt文档: SAS入门与认证

图片版下载地址:
http://picasaweb.google.com/woodphone/070607Forcode





































文字版内容:

李门第四次读书会:
SAS入门与认证

吴锋

2007年6月7日
 

SAS入门

    * 一、SAS界面;
    * 二、SAS基本概念;
    * 三、SAS基本操作;


一、SAS界面1
 
 
增强型程序编辑器:输入和编辑文本,包括SAS语句;提交SAS语句

深蓝色:数据步,程序步的开始和结束

蓝色:关键字

棕色:字符串

浅黄底色:数据块

红色:可能的错误

一、SAS界面2
 
 
一、SAS界面3

日志窗口(Log):输入和编辑文本,包括SAS语句;提交SAS语句

LOG窗口用于输出程序在运行时的各种相关信息,记录执行过的每一条语句

红色---错误

兰色---正常

绿色--- 警告)
 
 

一、SAS界面4

结果窗口(Result)

帮助用户浏览和管理所提交的SAS程序输出结果

即结果浏览窗口。
 
资源管理器(Explorer)

类似于Windows的资源管理器
 

一、SAS界面5

最常用的几个快捷键

1)窗口切换命令:

F5:切换到Editor窗口

F6:切换到LOG窗口

F7:切换到OUTPUT窗口

2)编辑命令:

Ctr+E:清除当前工作窗口的所有信息

F4:将运行过的程序调回到Editor窗口

F8:将Editor窗中的所有程序提交运行
 

二、SAS基本概念1:SAS数据集 

    * SAS数据集(SAS Datasets)可以看作由若干行和若干列组成的表格,类似于一个矩阵,但各列可以取不同的类型值,比如整数值、浮点值、时间值、字符串、货币值等等。SAS 数据集存放在以特殊格式存放的二进制文件中,我们用一个SAS中的逻辑名来使用SAS数据集 而不需关心它到底如何存储在磁盘上。

    * 数据集的每一行叫做一个观测(Observation),每列叫做一个变量(Variable)。SAS数 据集等价于关系数据库系统中的一个表,实际上一个SAS数据集有时也称作一张表。在数据库 术语中一个观测称作一个记录,一个变量称作一个域。


二、SAS基本概念2:SAS数据集
 
     * 从上面看出,数据集要有名字,变量要有名字,所以SAS中对名字(数据集名、变量名、数据库名,等等)有约定:SAS名字由英文字母、数字、 下划线组成,第一个字符必须是字母或下划线,名字最多用8个字符,大写字母和小写字母不区分。比如,name,abc,aBC,x1,year12,_NULL_等是合法的名字,且abc和aBC是同一个 名字,而class-1(不能有减号)、a bit(不能有空格)、serial#(不能有特殊字符)、Documents(超长)等不是合法的名字。

 
二、SAS基本概念3:SAS数据集
 
 
    * SAS数据集是各种特殊格式的 SAS文件中最重要的一种。另一种重要的SAS文件是 SAS目录(Catalog),用来保存各种不能表示成行列结构表格形式的数据,比如系统设置、图象、声音等。多个SAS文件可以放在一起,称为一个SAS数据库(Library)。数据库有一个库名(Libname),其命名遵循上述SAS名字命名原则。在MS DOS/Windows环境中,一个SAS数据库实际是磁盘上的一个子目录(特殊情况下一个数据库可以由几个子目录组成)。为了把库名和子目录联系起来,使用LIBNAME语句。比如,我们在C:\Y1995子目录中保存了几个SAS数据集,可以用如下语句把库名MYLIB与子目录C:\Y1995 联系起来:

libname mylib "c:\y1995";

二、SAS基本概念4:SAS数据库
 
    * 有三个预定义的SAS数据库:
    * WORK、SASUSER、SASHELP。
    * 其中,WORK数据库叫做临时库,存放在其中的SAS文件叫临时文件,这些临时文件当退出SAS系统时会被自动删除。
    * SASUSER库保存与用户个人 设置有关的文件,它是永久的,即退出SAS时文件不会被删除。
    * SASHELP库保存与SAS帮助系统 、例子有关的文件,是永久的。

 

二、SAS基本概念5:SAS数据库
 
 
    * 从上面看出,SAS文件分为 临时文件和永久文件:临时文件在退出SAS系统时自动被删除,永久文件在退出SAS系统时不自动被删除。所以,我们把作为中间结果使用的数据集或练习用的数据集作为临时数据集保存,而需要以后再用的数据集则可以保存为永久数据集。临时数据集和永久数据集的区别是:临时数据集可以用单水平名,即只有数据集名,比如C9501,而永久数据集名由两部分组成,前一部分是它的库名,后一部分才是数据集名,两部分中间用小数点连接,比如放在MYLIB库(即"C:\Y1995" 子目录) 中的数据集TEACH必须用MYLIB.TEACH表示。这样指定的数据集名在生成时可以放到由库名指定的子目录中,在读取时可以到指定的子目录读取,并且不会被自动删除。

 
二、SAS基本概念6:SAS数据库
 
    * 临时数据集除用单水平名外 ,也可以用库名为WORK的两水平名,如WORK.C9501和C9501 是一样的。
    * 要生成永久数据集,只要在指定要生成的数据集名时使用两水平名且库名已有定义, 比如,要把上面的C9501数据集在生成时就放到"C:\Y1995"子目录中,可以用如下语句:
    * libname mylib "c:\y1995"; data mylib.c9501; …… proc sort data=mylib.c9501; …… 这个程序和1.1.3的例子相比只是增加了一个定义库名的LIBNAME语句,然后在所有用到数据集名C9501的地方换成了两水平名MYLIB.C9501。要注意生成的数据集是MYLIB.C9501后面在 用到它的时候(在PROC SORT中)也必须使用两水平名MYLIB.C9501而不能使用单水平名C9501 ,这两个名字指向的不是同一个SAS文件。

 

二、SAS基本概念7:SAS数据库
 
为了显示现有定义的数据库,只要单击工具栏的

二、SAS基本概念8:SAS数据库 

Libraries窗口显示了现有定义的所有数据库及其对应的子目录,并在窗口下方显示了选定的数据库中的SAS文件列表。文 件列表第一列是SAS文件名称,第二列是其类型,DATA代表数据集。双击某一数据集名可以打 开此数据集到一个数据显示窗口查看。
 
 
    * SAS的使用方法一般是象1.1.3那样输入一个程序,运行,修改,最后在输出窗口得到结果。随着图形界面、用户友好等程序思想的发展,SAS也逐渐提供了一些不需要学习SAS编程就能进行数据管理、分析、报表、绘图的功能,其中做得比较出色的一个是SAS/INSIGHT模块。SAS/INSIGHT是在基本的SAS系统基础上添加的一个模块,提供了数据交互输入、数据探索、分布研究、相关分析、各种图形等功能。这里我们初步介绍SAS/INSIGHT的使用。

 

三、SAS基本操作1:

不需编程的SAS应用――SAS/INSIGHT
 

三、SAS基本操作2

    * 要启动SAS/INSIGHT,选Globals | Analyze | Interactive data analysis菜单,首先出现图 3那样的选择数据集的窗口:

这是SAS/INSIGHT必须先选择一个要分析、观察的数据集。如果要生成新数据集,按New按钮,如果要打开已有数据集,按Open按钮。 图 4是SAS/INSIGHT运行时的样子。
 

三、SAS基本操作3
 
     * 数据窗口:SAS/INSIGHT提供了一个类似于电子表格的数据窗口来管理数据集。图 5为显示了数 据集SASUSER.CLASS的数据窗口:

三、SAS基本操作4

此数据集是一个班19个学生的一些情况,包括姓名、性别、 年龄、身高、体重。我们看到,数据窗口标题行显示了打开的数据集的名字,标题行下左上 角有一个向右的小三角,这是数据窗口的菜单,见图 6:
 
 
    * 三角下方的19是观测行数,右方的5 是变量个数。窗口内每行最左边的方块是观测的绘图标记,用于在图形中标记观测;然后是 观测序号;再往右是各变量的值。数据窗口中的各变量用作列标题,如图 5中的NAME、SEX、AGE 、HEIGHT、WEIGHT就是数据集SASUSER.CLASS中的五个变量的名字。在每一个变量名的上面有 两个标签,右边一个代表变量的量测水平,分为区间变量(Int)和名义变量(Nom)。区间 变量是取连续值的变量,只能为数值;名义变量是取离散值的变量,一般为字符型,也可以 取数值。变量名上面左边的标签代表变量在分析中的缺省用途,比如NAME上面的Label表示此 变量的值(学生姓名)在绘图中用来标记观测,SEX上面的Group表示此变量(性别)用来分 组,等等。

 

三、SAS基本操作5
 
    * 数据窗口可以用来建立新数据集。在SAS/INSIGHT内用"File | New"菜单或在启动INSIGHT 的窗口(图 3)按"New"按钮,将出现一个空的数据窗口。这时,可以直接向第一行输入数据,比如要输入 1.1.3 中的C9501数据集,就可以在第一行的前四列中分别输入李明、男、92 、98,这时各列自动取变量名为A、B、C、D,而且量测水平自动定为前两个字符型是名义变量(Nom),后两个数值型是区间变量(Int)。为了修改变量名和变量的用途,从数据窗口的菜单(图 6)选Define Variables,出现图7的定义变量窗口:

 

三、SAS基本操作5
 
    * 在这里可以修改变量名,给变量加标签Label,可以选择变量的量测水平,可以规定变量的用途。变量的标签是对变量的一个可以长达40个字符的描述,可以用于以后的输出,可以用汉字。

 

三、SAS基本操作5
 
    * 定好变量名等属性后就可以继续输入其它数据行,每输入一行后回车,直至把全部数据输 完。为了使回车时光标从前一行尾部进到下一行第一格,可以从数据窗口菜单(图 6)中选 "Data Options",在弹出的对话框中(图 9):

 

三、SAS基本操作6

选择回车的方向(Direction of Enter)为 左下(Down and Left)。为了保存输入的数据集,选"File | Save | Data"菜单,出现图 8 那样的输入数据集的窗口:
 
 
    * 可以选择数据集放在哪一个数据库,可以输入一个数据集名,把 这里的A改成c9501,按OK钮就可以保存数据集。对于比较小的数据集(几个、十几个变量, 几十个观测),用SAS/INSIGHT的数据窗口可以迅速而直观地输入。对于更大量的数据,一般 从其它格式转换而得。

 

三、SAS基本操作7
 
 
    * 在数据窗口中如果需要修改某一个值,只要直接用鼠标点到其单元格修改,然后把输入光 标离开其所在行就实现了修改。在单元格之间移动可以用鼠标单击、制表键、回车、上下光 标键等方法。要保存所作的修改还需要用"File | Save | Data"菜单。
    * 当数据窗口中变量较多时,可以用滚动条滚动窗口内容来查看。如果某个变量比较重要, 可以考虑把它放到第一列的位置,这只要先单击该变量的名字选中它,然后在图 6的菜单中 选Move to First。要把某列移到最后,选中它后用Move to Last菜单。
    * 选中一列只要单击其变量名。如果要选中多个列,在选中一个后按住Ctrl键单击其它的名 字可以添加选中其它变量。选中一个变量后按住Shift单击另一个变量名可以选中这两个变量 及它们之间的所有变量。选中的多个列也可以用Move to First和Move to Last移动。
    * 要选中一个观测(行),只要单击其观测号(行号)。选多个观测可以用Ctrl单击或Shift 单击的方法。选中的观测也可以用Move to First和Move to Last移动到最前或最后。
    * 还可以选中某些列同时选中某些行。只要在后续的选中操作时用添加选中(Shift单击或Ctrl 单击)即可。用鼠标在数据窗口数值显示部分拖出一个方框也可以选定一部分数值。
    * 选定了列或者行以后,用"Edit | Delete"菜单可以删除选定的列或行。
    * 要取消所有选中,只要单击某一单元格而不是行、列标题即可。

 

三、SAS基本操作8
 


SAS认证

    * 一、自学途径;
    * 二、入门和应用;
    * 三、SAS认证考试 ;
 

一:自学途径1

    * 1.1 参考网站
    * 免费的在线入门课件:
    * 中文: http://www.math.pku.edu.cn/teachers/lidf/docs/statsoft/html/statsoft.html
    * ――其中第二、三章是证书考试的范围
    * 英文:http://www.ats.ucla.edu/stat/sas/sk/default.htm
    * 在线源代码例子:
    * http://support.sas.com/techsup/sample/sample_library.html
    * http://support.sas.com/documentation
    * SAS入门程序员中文社区:
    * http://www.mysas.net  "SAS认证与培训"版
    * http://www.mitbbs.com/mitbbs_bbsdoc.php?board=Statistics  "统计"版
    * http://sasor.feoh.net/

 

    * 1.2 SAS9帮助文件中的程序范例
    * HelpSAS Help and Documentation
    * (弹出的窗口中左半部分标签)目录Learning to Use SAS
    * (单击)Sample SAS Programing(单击右边页面里链接)Base SAS…

 

    * 1.3 多层分析和追踪数据模型的教学论文
    * Singer, J.D.(1998), Using SAS PROC MIXED to fit multilevel models, hierarchical models, and individual growth models, Journal of Educational and Behavioral Statistics, 24(4). 323-355.
    * 作者主页http://www.gse.harvard.edu/~faculty/singer/ 提供了pdf全文下载,但要求下载的读者留一个反馈电子邮件。
    * 摘一段主页上对这份资料的简介:
    * It is written as a step-by-step tutorial that shows how to use SAS to fit the two most common multilevel models: (1) two-level models, designed for data on individuals nested within naturally occuring hierarchies ( e.g., students within classes) and (2) individual growth models, designed for exploring longitudinal data (on individuals) over time. The conclusion provides code for three level models and an appendix provides code for working with multilevel data in SAS.

 

一:自学途径2
 
    * 1.4 如何使用搜索网站google,如何从境内访问中立百科全书wiki上的资料
    * 例子:在sas官方网站中搜索"structural equation"
    * 在google输入框输入:"sructural equation" site:sas.com
    * 例子:访问英文wiki,看对SAS System的中立评价
    * wiki英文安全链接首页:https://secure.wikimedia.org/wikipedia/en/wiki/Main_Page
    * 在左边的search框输入 SAS System,点go摁纽进入SAS System词条。读者可以自行编辑词条,增加参考的外部链接。所以词条附带的外部链接通常是非常有参考价值的网址。
    * 这个词条相应的中文网址是:
    * https://secure.wikimedia.org/wikipedia/zh/wiki/SAS%E7%B3%BB%E7%BB%9F

 

一:自学途径3
 
    * 1.5 昂贵的外文书籍与培训班
    * SAS公司推荐的入门教材(英文):The Little SAS Book: A Primer
    * http://www.sas.com/apps/pubscat/bookdetails.jsp?pc=56649
    * 但书中最有价值的部分――代码范例可以从该网页免费下载。
    * 已经有一定水准的同学可同样下载SAS出版社的系列进阶书籍的代码范例研读。书列表网址:
    * http://support.sas.com/publishing/bbu/companion_site/home.html#l
    * 其中特别推荐:SAS for Monte Carlo Studies: A Guide for Quantitative Researchers
    * http://support.sas.com/publishing/bbu/companion_site/57323.html
    * 在线自学培训与面授培训班:
    * http://www.sas.com/apps/elearning/elearning_courses.jsp?cat=SAS+Certification
    * 证书考试程序员部分有两级,每级是300美元。对国内的学员无疑过于昂贵。这两个课程在北京有SAS官方培训班面授,价格更高昂,达到1万元人民币,尽管对高校师生五折。在SAS中文社区里,极少有网友购买过这些培训服务。国内多数报考的人是通过自学。目前用中文教学的培训班仅见于加拿大。用英文教学的培训班多以在线课程方式存在,竞争的商家不少。

 

一:自学途径4
 
    * 1.6 如何获得SAS软件
    * 应该通过学校或者单位统一购买。在美国,不同的大学与SAS有自己的谈判价格,可以低到每个学生20美元。国内的价格谈判要联系www.sas.com.cn
    * 此外,每位计划在自己的教学中用到SAS系统的高校教师可以申请一套免费的SAS学习版。详见网址: http://support.sas.com/publishing/survey/international_deskcopy.html

 

一:自学途径5
 
二、SAS入门与应用

    * 推荐教材:第一部分所列的北大概率统计系李东风老师在线教材第一章(SAS初阶)到第三章(SAS过程初步)。
    * http://www.math.pku.edu.cn/teachers/lidf/docs/statsoft/html/statsoft.html
    * 进阶教材:Debugging a Simple Data Step
    * http://support.sas.com/onlinedoc/913/getDoc/zh/lrdict.hlp/a000379345.htm

 
三、SAS认证考试1

    * 3.1 在大陆考试的费用:从 http://www.prometric.com/ 国际站点(不点网站首页上的中国)预约,基本上每个工作日都可以机考,绝大部分国内省会城市有考点。目前初级和高级考试都是115美元(通过信用卡即可付款)。对高校师生,06年内的优惠价为77.05美元,需要提前传真一份学生证或者工作证明到+49 6221 416 7 313。或者用电子邮件发送扫描档案到 SAS.Institute.EMEA.Certification@eur.sas.com 。对方如果确认,会回复一个优惠密码,在预约时填写。


    * 3.2共有五个证书种类,其中SAS程序员证书有初级和高级两个级别。其他三个级别属于特定专业领域的证书,极少有人报考。初级和高级目前全球约有数千位证书持有者。证书持有者可以通过给SAS研究所发授权传真把自己的认证资格情况在SAS网站统一发布,以便招聘市场确认。这个列表网址是: http://support.sas.com/certify/dir_name.html

 

三、SAS认证考试2
 
    * 3.3 初级证书和高级证书考试实际上都不考统计具体应用的部分。比如,不会考回归怎么应用,更不会考多层分析或者结构方程怎么应用。具体的考试范围与样题,请参考
    * http://support.sas.com/certify/credbp9.html#bp9
    * http://support.sas.com/certify/credap9.html#ap9

 

三、SAS认证考试2
 
 
参考文献:

    * 1、香港中文大学教育学院李晓煦:《SAS基础及其认证程序员证书考试介绍》;
    * 2、北京大学统计应用协会SAS俱乐部艾云:《SAS与数据分析基本概念》;
    * 3、北京大学概率统计系李东风:《统计软件教程》;
--
最新奇有趣的新技术、科幻、社会学信息:
http://www.qixianglu.cn
forcode科幻小说《抽水马桶的秘密》:
http://www.cmfu.com/showbook.asp?Bl_id=60008

标签:

0 条评论:

发表评论

订阅 博文评论 [Atom]

<< 主页

热门文章
============================================================
格兰仕微波炉报价单    英语六级历年真题听力下载    大陆身份证生成器
東方神起的所有反轉劇!!.[含东方剧场](會繼續更新以後的)(已可覲看)
电视剧《靠近你温暖我》全集下载(BT/迅雷/电驴/剧照)
精彩的洞庭湖人鼠大战(4视频+forcode点评)
一百多个电影字幕下载网站,精心收集整理!
(视频)(CCTV10“走进科学”-科幻之旅专题-克隆人 8.14)
国外BT站点和BT种子搜索站(国外完整bt搜索列表)
============================================================
forcode科幻小说《抽水马桶的秘密》正在起点中文网连载
《抽水马桶的秘密》读者评论:
(1)你的书很好看,比大刘,王晋康的创意好太多了,努力吧将来出实体书我一定会买的。(2)很有想象力的作者啊!!估计是看了不少科幻小说的人,希望不要浪费你非凡的想象力。
(3) 读者在自己博客或论坛对《抽水马桶的秘密》的评论。(4)点击此处查看全部的读者评论(18页,1000条以上)
《抽水马桶的秘密》相关帖子:
《远程面包机》提纲|| 《进化论危机》提纲大家一起来设计
抽水马桶是外星人的试管|| 读者推荐超一万票
《抽水马桶的秘密》内容简介:
地球哺乳界正在发生的一次大规模跨物种升级,DNA机制并非人们所想像的那样是决定生命的最终遗传载体,而是类似浏览器这样的转译机制,真正的遗传物质存储在弥漫整个宇宙的光子数据库中,DNA机制实际上是一种设定了进化路径的文明压缩包的解压机制,数十亿年前灭绝的三栖人发明了光子数据库和DNA机制,目的是为了让这个机制最终复活三栖人文明,而人类(裸猿)这一物种在三栖人社会里其实是一种宠物,但是DNA机制似乎出现了点问题,或者说不知道什么原因裸猿突然变得太过聪明了,在播撒了始祖菌(DNA种子)的所有星球,进化路径发展到裸猿阶段,并没有继续演化出最后一步:三栖人,而强大的光子数据库一旦意识到DNA进化机制的这个漏洞,立刻关闭了这些星球对光子数据库的访问权限,这样,这些星球的生态系统都面临着灭绝的危险,因为他们脱离了光子数据库的遗传支持再也无法自然繁殖,只能靠遗传工程来复制现有的基因,或者做些小打小闹的修改,整个宇宙各星球上的基于DNA机制的生态系统都面临崩溃的危险。最终在13世纪,裸猿一族在银河边缘一个不起眼的小星系发现了地球这个由于某种原因至今还刚进化到裸猿初级阶段的星球,为了催熟地球的进化速度,外星裸猿文明开始介入地球的发展,为了防止光子数据库察觉到非地球文明的介入并关闭地球的权限,这种介入始终是暗中进行,因为介入方式的分歧,银河系裸猿文明分裂为两大集团,这两大集团的争斗伴随着人类近现代的发展,于是,文艺复兴开始了、三次科技革命出现了、两次世界大战也来了,直到今天,地球人类为自己的技术进步而沾沾自喜,丝毫不知道技术迅速发展的真正原因以及潜藏的危机。
============================================================
forcode2003年以前的习作:未来的婚姻、远程面包机
forcode朗诵《蜀道难》||forcode的一百多个科幻构思
奇想录:最新奇有趣的新技术和新闻点评|| 订阅“奇想录”