主页 > 国内 >

亚博国际平台手机版股票那只好

哈佛教授用3个大数据案例告诉你:大数据,重要的不是数据!


?“满城尽谈大数据”,但很多人其实并不理解大数据真正价值是什么,哈佛大学Gary King教授用3个大数据研究案例告诉你:有数据固然好,但是如果没有分析,数据的价值就没法体现。


2017年初,哈佛大学政治学系教授加里·金(Gary King)在上海交通大学举办了一场名为《大数据,重要的不是数据》(Big Data is Not About the Data)的讲座。


主讲人Gary King是哈佛大学的校级教授(University Professor)。King教授以实证研究知名,擅长量化研究,其研究涉及政治学、公共政策、法学、心理学和统计学等领域。


(图片说明:1月4日,Gary King教授在上海交大演讲现场)


以下是Gary King 教授演讲实录(有删节):


我工作的领域叫做量化社会科学(Quantitative Social Science),有时,它有一个别称,叫大数据。“大数据”这个词最早是媒体发现的,它试图向大众解释我们是做什么的,目前看来解释的效果还不错。


然而,大数据的价值不是在数据本身,虽然我们需要数据,数据很多时候只是伴随科技进步而产生的免费的副产品。比如说,学校为了让学生能更高效地注册而引进了注册系统,因而有了学生的很多信息,这些都是因为技术改进而产生的数据增量。


大数据的真正价值在于数据分析。数据是为了某种目的存在,目的可以变,我们可以通过数据来了解完全不同的东西……有数据固然好,但是如果没有分析,数据的价值就没法体现。


先来看一个大数据在公共政策层面运用的案例。


我们曾经做过一个评估研究,发现2000年以后美国社会保障管理总署(U.S. Social Security Administration,简称“SSA”)对于美国社保账户及人口寿命的预测有系统性偏差。


(图片说明:2000年以后SSA对社保基金账户情况的预测出现显着偏差;来源:Gary King论文)


大背景是,美国的社会保障平台是美国最大的单一政府平台,它的资金是跨代流动的——当前退休者的养老金供给来自于他们的下一代,即现在工作的人交的税金。


所以SSA需要预测这个信托基金项目里的资金流,以及人的寿命,正确预测这两点很重要,如果人们比SSA预期的更长寿——虽然这是好事——就很可能导致信托基金里就没有足够的钱给他们养老了。


我们研究发现,SSA的预测在2000年以后出现了系统性偏差——发生偏差的原因之一,是SSA使用的模型本质上定性分析的模型,且多年来几乎没有调整。由于一些药物的使用和癌症早期发现,美国人开始比模型预测地更长寿了。


我们通过分析得出的结论是,美国社保信托基金至少存在8千亿美元的缺口。


虽然结论有点不幸,但是政府需要提前知道。这样政府就可以有空间在税率,退休年龄等方面进行调整。这是公共政策层面的话题。


关于定性分析和定量分析,其实不是泾渭分明的。做分析全靠定性分析(由人主导)是不够的,因为你有很多数据不知道该怎么处理。 全靠定量分析(由机器主导)也不行,这就像一张巨大的excel表,但是表中没有行、列的标签。所以,大数据分析需要的是由人主导,由计算机辅助的技术(we need computer-assisted, human-led technology)。


我们还做过一个计算机辅助阅读的实验。我们开发了一套计算机辅助、自动化阅读的技术,这项技术能帮助人们从非结构化的文字中提取、组织并且处理大量信息。


我们曾用该技术处理了64000篇国会议员官方发布的新闻稿,想通过这项基础帮我们作分类,看国会议员在新闻稿中都说了些什么。


结果我们发现,居然有高达27%的议员发布的新闻稿内容只是单纯地想抨击对方(Partisan Taunting),而不是想要平衡预算或停止战争,或解决问题。


(图片说明:Gary King表示,抨击对方政党从个人角度来看是理性的,但是从整个集群的角度来看,是非理性的,如果抨击对方的言语增多,政党之间的合作关系和能效会减弱;来源:Gary King研究成果单页)


大数据时代,我们可以通过去量化过去不能量化的信息,使用精妙的统计学方法分析这些信息成为可能。


现在,我们都可以对一些强定性属性(inherently qualitative)的东西作定量分析了,如音频和视频。但是,目前仍有一些定性分析工作者要分析的内容还未被量化。所以,定性分析、定量分析要配合操作才行。?


我参与过一个产品项目叫做Perusall。“Peruse”是仔细精读的意思,Perusall就是peruse + all,可以简单理解为大家一起读。


这个产品产生的背景是,大学教授会给同学布置阅读作业,但是教授很难评估学生是否阅读了规定的章节。如果有的学生没读而有的学生读了,这对整体课堂的授课效果会有影响。


Perusall的好处之一,是它把阅读从一个个体活动变成了一个集体活动。阅读文章的同学可以对自己看不懂的部分做批注,也可以对其他同学的批注作回复解答。这样更容易调动同学阅读的主动积极性,让阅读变得更有趣。人天生是社会动物,这也是为什么人们相比于在iTunes里听歌更愿意花钱去看演唱会,虽然前者音乐声音更清晰。


(图片说明:“学生困惑报告”样本;来源:哈佛官网)


一旦学生用Perusall在线上阅读之后,我们就有了很多之前不可能互获取的数据:知道学生在读什么,他们对阅读内容的反馈怎样,他们在读每一页的时候花多少时间;当然,如果你没有读书的第46-47页,我们也会知道这个。


一方面,Perusall会基于每个学生的阅读情况和评价质量,对学生的这项阅读作业进行打分,从老师的层面看,这省去了原先阅读作业不易评估的问题。


另一方面,Perusall会分析这些阅读数据,知道学生们读到哪里时觉得困惑。


Perusall可以在老师上课前生成一个“学生困惑报告”(Students confusion report)。拿到这份报告,我就可以在一走进课堂时说,“根据你们的阅读情况,你们可能有以下三个问题。”


注:本文根据Gary King教授2017年1月4日在上海交通大学的讲座内容整理、编辑而成






往期精彩文章

点击图片阅读文章

2016年研究数据可视化最不应该错过的10篇文章


当前文章:http://www.bravenewteam.com/cd5x/53275-60276-78779.html

发布时间:03:01:25


{相关文章}

高考,“完美志愿” 这么报

高考填报志愿究竟有多重要?统计数据显示,北大人力资源管理专业的毕业生平均工资,甚至没有一所亚博国际平台手机版算法工程师面试题_星玄未来亚博国际平台手机版平台三本学校从事前端开发的毕业生高,而前者的高考分数可能高于后者数百分。考生们有厚厚的报考指南,有众多出谋划策的亲朋好友,然而却依然不知道该如何报考。

完美志愿的数据团队分析了全国 2012 所院校、1214 个专业(包括本、专科)、4000 万学生的数据(来自 SNS 网站、招聘网站及国家机关和教育部门等渠道公开的数据),经过机器学习、自然语言处理、复杂数据分析、大规模运算、可亚博国际平台手机版音轨百度云_星玄未来亚博国际平台手机版平台视化、数据应用等步骤,最终为考生报志愿提供一个科学的决策依据。

在完美志愿,考生可以查找自己分数能上的大学,根据个人意向设置学校与专业的条件筛选:地区、类型、读研比例、出国难易程度、男女比例等。完美志愿还会从毕业薪酬、薪酬涨幅、工作稳定性、职位就业面、行业就业亚博国际平台手机版软件开发平台_星玄未来亚博国际平台手机版平台面等角度,告诉考生所选择的学校和专业未来的前景究竟怎么样。

高考志愿应该服从人生规划

完美志愿的功能不仅在于单纯的展示和检索这些统计数据。高考填报志愿有一个很大的误区,考生和家长过于重视选择一所好的学校,希望尽量不要 “浪费” 分数,这样的倾向往往牺牲了对专业的选择,但事实上从未来的发展来看,专业比学校更重要,而且重要的多。

完美志愿的解决方案是从人生规划入手,先了解考生的性格、能力和兴趣,为其匹配合适的专业,再根据专业和分数推荐相关的学校。美国很多大学目前都要求学生在入学的时候做能力倾向测试,完亚博国际平台手机版 细思极恐_星玄未来亚博国际平台手机版平台美志愿对其进行了本土化处理,研发了适合中国学生的测试系统。

职业性格测试方面,目前比较流行的是MBTI 测试亚博国际平台手机版 lr_星玄未来亚博国际平台手机版平台,但是 MBTI 测试只能推荐到职业大类,而且几十年来变化较少,导致其推荐的职业相对老旧。完美志愿研发的职业测试可以细分到具体职业,增加了很多新兴职业,并可以对职业未来发展前景给出评估。

准确是录取率预测的关键

完美志愿的另一个重要功能是根据考生分数,预测其报考学校和专业的录取概率。完美志愿 CEO 杨洋表示,由于全国各个省份的录取政策不同,并且每年各个学校都会发生一些变化,例如有的学校会升级为 211 院校,有的学校可能更改名字,因此这个预测系统的复杂度很高,需要考虑到各种情况。

提供高考指导的产品还有高考先生等,杨洋说其实大家拼的还是预测准确率,完美志愿在这方面进行了很多投入,联合了哈工大,清华,香港科技大学,美国亚利桑那大学等 6 所高校,用博弈论的方法进行建模,甚至动用了广州天河二号计算机进行运算。目前新浪的教育数据库使用的是完美志愿的服务,腾讯和网易也在进行这方面的合作。

如何盈利以及其他延展性

高考志愿填报辅导在线下是一个超过 100 亿的行业,辅导老师主要依靠个人经验来提供服务。完美志愿之前一直是免费的,据悉有些线下机构也在使用完美志愿的工具。由于这是一个需求非常刚性、家长付费意愿十分强烈的行业,完美志愿计划在未来采取 Freemium 的模式,基本的查看录取率等功能依然免费,对于详细人生规划和智能一键申报等高级功能,只有付费会员可以使用。

其实完美志愿只是 iPIN 公司的一个无心插柳的产品,iPIN 是一家人工只能公司,其核心的产品是一款职业导师机器人和一款猎头机器人,职业导师机器人提供的是 to C 的服务,帮助大学生和白领监控职场,寻找更好的工作机会;猎头机器人提供的是 to B 的服务,帮企业寻找合适的人才。

完美志愿的诞生,是由于 iPIN 在收集职场数据的同时,发现其实这些数据也可以用于指导高考的报考,毕竟现在生活压力越来越大,毕业以后的职业发展情况是报考时应该考虑的一个重要因素。在 iPIN 的整体业务规划中,提供企业服务的猎头机器人是盈利的重点,职业导师机器人前期也会完全免费。

完美志愿的创始人 CEO 杨洋是原哈尔滨工业大学副教授,美国 Temple University 信息学博士,CDO 潘嵘是中山大学副教授,2005年KDDCUP(全球数据挖掘亚博国际平台手机版入口相”的股票_星玄未来亚博国际平台手机版平台大赛)三项世界冠军,前美国 HP 数据科学家,董事杨强是国际亚博国际平台手机版协会(AAAI)院士、2015年 国际亚博国际平台手机版大会主席、香港科技大学计算机系主任。公司于 2015年9月 完成千万美元级 B 轮融资。

我是36 氪专注报道互联网金融和教育行业的作者 Justin,欢迎大家与我联系,切磋讨论。我的微信是 :196215239

原创文章,作者:老扎,如若转载,请注明出处:http://36kr.com/p/5043059.html

“看完这篇还不够?如果你也在创业,并且希望自己的项目被报道,请戳这里告诉我们!”

相关文章
推荐图文
最热文章