华人澳洲中文论坛

热图推荐

    【地下课】冲破次元壁,从二次元到元宇宙的空间地舆数据剖析

    [复制链接]

    2022-9-18 06:50:14 34 0



    图片来源于视频
    明天,想用三组概念和三个故事来和大家来分享一下空间数据剖析的扼要的进程。首先,无论大家来学习甚么货色,高效的学习最少要有三个要点。
    要明白学习的一个目的,为何要学这门课;要有一个正确的学习办法,这样的话就是经过前面 10 次课的学习,能够掌握空间数据剖析的一个才能;数据剖析是一个理论性很强的一个学科,是需求一个无效的练习。咱们尽可能的率领大家避开一些无用功的一个输入,把一切的练习时间都花在一个无效输入的学习指标。至于学习办法和如何练习,会在课程来体现,先跟大家分享三个概念。第一个,学习空间剖析的目的。首先这门课的指标是要使大家来学会使用 Python 进行空间数据处置。Python 作为一个开源的脚本言语,斟酌到学员里可能有得多这个理科配景的同窗关于文科或者编程是有一些生疏的,所以会由浅入深地来分享给大家。分享两个问题,开始以前第一个问题,空间数据处置的才能,为何在这样一个时间节点上变得愈来愈首要了。
    第二个问题,为何咱们要做数据剖析?数据剖析自身它的价值是甚么?由于知道数据剖析行业或者说全部数据行业,当初有一个惊人的利润率。为何这样的一个行业能够发生微小的价值,这两个问题跟大家交叉着来分享。


    图片来源于视频 甚么是数据?
    简略来讲,数据是一种信息的载体,是一种符号,能够看到咱们的史记,是一种文本的数据。那卡农是一种音频的数据,像韩系载页面图是一种图片的数据,用艰深的话来说,数据就是一种信息的载体,实现的是一个信息保留,第二个是信息传递的作用。数据就是手机或者电脑里存的这些数字化的一些货色。然而从古往今来看,具备信息承载功用均可以成为数据。所以说狭义的数据就是从人类的文化常识开始,人类发明了符号开始,在山顶洞人在岩穴里刻下的第一幅壁画来记载第一个故事开始,数据曾经发生了。
    数据为何首要呢?
    数据从人类的文化开始,就记录人类文化和历史的载体。在泛起数据以前有过甚么,是未知的。数据是一直伴有着人类文化和历史的过程之中,这就是数据为何是首要的。


    图片来源于视频 第二个,空间数据是甚么?
    它跟传统的数据或者个别的数据有甚么区分?空间数据次要体现表现物体的地位、状态、大小、散布,四个维度是不同的。这四个维度能够来形容一个物体的景象或者定量。空间数据次要分为两类,一个是图形数据,另外一个是图象数据,这两类数据各有各自的性质和优缺陷,也是重点来处置的对象,咱们会在前面展开剖析。举个例子,就是右侧的梅花卫星云图,看到了台风正在我国西北沿海正在登陆的进程。如何来形容台风的空间数据?它的地位是用台风眼来表白的,它的大小就是用一个台风的直径。台风的地位和散布就能从地图下去看出来。黄色的线是海岸线,绿色框是大略框出来,台风影响的规模就是全部涉及到西北沿海,以及像浙江、江苏南部、江西、福建、等实务一大片区域都是受它的影响。这是梅花台风的空间数据能够告知的一些故事。
    第二个,这个图形数据,当初看到微信云图,其实就是一个图象的数据,后边会来说它的图形数据究竟是甚么。到这里,简略的来思考一下,空间数据为何是首要的?比拟于传统的数据,多了这些形容物体特性的维度,就可以使它变得首要吗?


    图片来源于视频
    其实每集体的配景纷歧样,尤为是我们课程,不同的同窗有不同的配景,谜底是不同的。那末从我来看,空间数据是能够在与其余种别的数据结合,帮忙提炼出来未知的一些信息。空间数据剖析就可以够定量的往返答以前提到的一些问题,以及今后将要遇到的空间相干的问题。我很崇拜的一个哲学家迪卡尔来借用他的一些实践来跟大家分享。为何以为空间数据是很首要的。首先,笛卡尔在第一哲学里提出了物资的广言这样的概念。甚么意思?广言是说一切的物资就是作为一集体类糊口在一个三维空间里。一切的人、物资都必定会有一个长宽高的空间属性。这类属性抉择了任何的物资或者个体在三维世界里都是必定存在一个空间信息的,会发生一个空间数据,抉择了在这样一个世界里,任何的两种物资不成能同时泛起在同一个空间之中。关于人类社会来讲,空间是独一的且稀缺的一种资源,拥有排它性的。
    了解了空间的特性,能够知道为何北京的房子总永久是不敷的,为何靠拓宽马路,永久无奈解决交通拥挤,或者为何人类永久无奈两次踏入同一条河流。空间数据剖析就是基于空间的特性往返答这些问题。


    图片来源于视频
    接上去就用三个故事或者说三个三类对比常见的空间剖析案例,向大家来分享空间剖析的详细进程。
    第一个故事,是疫情地图的案例


    图片来源于视频
    一个十分经典的疫情地图。假如是公共卫生学科、公共办理、城市布局学科的专业,应该见过这个地图。在 19 世纪的欧洲,尤为是在英国,是处在工业反动和城市化的过程里。那时分的城市,不像当初有丰硕的公开管道或者是城市下层空间的修建。过后的城市是糊口污水和渣滓是随处的倾倒。全部街上就洋溢着各种臭味,因为工业化带来的空气净化也是很重大的。伦敦在 19 世纪是泛起过很重大的雾霾,由此致使的得多人患肺癌或者呼吸道的疾病并因此丧生。在 19 世纪的伦敦,假如可怜的染上了霍乱,就会泛起重大上吐下泻的症状,会由于适度的脱水诱发休克或者其余的并发症,终究致使死亡。过后除了英国,全部欧洲都是霍乱频发的一个形态,每次霍乱的发作都会使得上万人损失生命。
    过后对于霍乱的病因的盛行是甚么?得多人揣测是由于瘴气致使的,由于全部伦敦就是空气品质特别差,以为是污秽的气体分散致使的。过后一旦泛起了霍乱,人们采用的措施就是出门的时分就覆盖了口鼻或者像明天戴上口罩同样。在 1854 年 9 月份的时分,伦敦又发作了一次霍乱。
    过后政府根据呼吸道沾染疾病的形式来,采用的防控措施,让大家来进行覆盖口鼻,没有对城市渣滓和排泄物做一个处置,把一切患霍乱病人的排泄物就连同其余的糊口渣滓一同倒入了泰武士河。起初就泛起了救世主就是中snow ,他是一位麻醉医生,他在他的助理的协助下,就对看到的这张地图,关于过后这个死亡病例特别多之处,看到黑色的柱状,实际上是一条一条的短黑线来叠起来的。就像其余之处,每一个条黑线就代表一个死亡病例。这个中央死亡病例是至多的,由于都是这类叠起来好高,会萃在一同。他跟他的助理就是环抱着苏河区进行了一个死亡居民与城市设施之间关联瓜葛的一个考察,绘制了这样一个疫情地图。
    从标志的地图能够看到,在宽街四周左近是有一个独一的水泵,环抱着水泵泛起了少量的死亡案例,就是 pump 这个斑点就是阿谁水泵。然而一街之隔的北侧,上边这个是北侧的话,就是死亡病例会显著的增加得多。
    比拟于路南,为何?由于南方北边是一个啤酒厂,路北边的居民大少数是啤酒厂的工人,这些工人大少数是能够收费饮用啤酒厂的啤酒。所以患霍乱的病例就会少得多。经过一个疫情地图, join snow 就推断出,可能霍乱的沾染终究是跟水源无关的,实际上是一种消化道的沾染疾病。终究发现推进了全部城市的供水和排水零碎的开展。就像咱们明天城市里都是饮用水跟排糊口废水的排水是别离的。
    这张图也被视为是全部盛行病学的地图来进行疾病钻研的一个起头。使用这类地图的办法探访到了沾染病的传布与空间之间的瓜葛,而且进一步的推进了起初干涉霍乱的一种公共疾病的措施,起到了很首要的作用。这个案例始终到明天始终是公共卫生、地舆学、城市布局学科的一个经典的案例。像咱们正在面对的这个新冠疫情,大家从 2020 年开始,像高德地图,百度地图都出了得多的疫情,相干的地图大家也都会在地图的运用里来用。所以关于明天的疫情地图来讲,应该是不生疏了,这是一个最经典的案例开始。
    为何标题叫冲破二次元,就要从二维的空间数据的剖析来走向三维数据和四维数据。接上去看一个思惟案例。在美国麻省理工大学的一个城市感知试验室做的一个斯德格尔摩,在新冠疫情中,城市居民的行动数据产生变动的一个案例。这个案例是一个静态的。


    图片来源于视频
    首先,课题组是在新冠之后,对格尔摩,全部城市的居民采了两种数据,一种是推数据,第二种是她做了一个问卷。在发推特的时分是能够标志你的地位信息的,这就为空间剖析提供了一个空间数据的属性。而后能够看到提供了两种视觉的角度,一种是从上往下的这样一个仰望的视角,间接直观的来看到咱们数据在空间二维的角度,在一个散布它的会萃进程。从一个三维的视角就能看出来在这个点的数据强度。在这个界面,数据强度就是考察对象的活泼水平。这幅展现的就是在新冠病毒里,柱子越高,阐明这个地位发推特的人就越多。蓝色表现在疫情期间一样的一组数据,说发推特的数据是甚么样的?方才白色是疫情以前的数据,这样就能对比出来疫情关于同一个时空规模内,人的行动模式产生了一个变动。


    图片来源于视频
    接上去看地舆数据,最多见的用法把空间数据和其余的某一个维度的数据来结合起来。当初展现在底下的这一个折线,横坐标是日期,纵坐标是在这一天新增的新冠病例确实诊数。经过空间数据和新冠确诊病例数据的联结剖析,课题组发现了就不同的群体,受新冠影响水平的纷歧样体当初哪些中央?上边的部份,经过数据的空间聚类失掉了一个热点图,做法就是能够经过得多的点数据来做合密度剖析,经过差分的算法来生成一种相对于平滑的热区域和冷区域,方才的就是热点区域来权衡城市居民到周边糊口办事设施的拜候频次。好比说寓居小区周边的方便店或者超市必备的糊口提供糊口用品的场合。蓝色的图展现居民到周边的公园,它的频次。白色引见过了,是疫情以前大家常常会萃之处,蓝色就是疫情开始之后的一个维度数据。在下边能够看到有四个症结点。第一个点是 risk increased ,是斯德厄尔摩泛起了第二个确诊病例之后,在历史的节点,来对比了在疫情产生以前两种数据的差别,能够看到疫情开始以前大家常去之处,疫情开始之后简直就不去了,开始之后大家流动的半径显著的就是放大了。


    图片来源于视频
    在第二个症结节点就是跟着新冠疫情的开展,斯特格尔摩出台了一个居家政策,一切任务场合也关掉了,大家都开始居家办公,然而保存了公共藏书楼凋谢,这样一个数据反应出来 96% 的藏书楼仍是凋谢的。疫情先后的行动数据是对比显著,并且强度也能够看出来是有一个差距的。像在下边数据的右下角,大家也能够看到不同的目标,像这个是百分之二百二十九,而后藏书楼凋谢了。第四个症结点是 gathering size restriction 就是政府出台了政策,阻止大家会萃。而后能够看到右下角维度是夜糊口增加了89%的强度,像这个餐馆增加了百分之四十三的强度。这是一个对比显著的在疫情份析里罕用的一种数据剖析的模式。
    第二个故事,数字孪生


    图片来源于视频
    可能大家听得对比多,数字孪生是甚么?实际上是相对于于咱们方才看到数据的可视化,是把理想世界经过各种的伎俩收集到理想世界来虚构出来一个世界。数字孪生体是一对一的建设物理世界对应的数字实体。好比关于北京长安街沿线,要建天安门、故宫、大剧场,而后沿着长安街往东走,建王府井一切的修建,这是物理世界到数字世界的映照。孪生的意义在于能够从数字世界反向的向物理世界来映照。同时物理世界是存在少量的传感器和响应,能够具备响应举措的机械或者电子器件。


    图片来源于视频
    数字孪生当初用的最广的场景就是城市和城市中的智慧园区。数字孪生城市是目前城市化过程当中包罗城市建立最次要的最热的一个赛道。一个对比成熟的数字园区做得对比好的。由于在数字园区里,尤为是工厂,机械化水平对比高。对数字实体进行一个操作的话,能够间接映照到物理机械实体。好比中控关掉一个关掉或者关上某一个发起机,那末对应的物理实体的发起机就会发生相应的举措,去封闭或者关上,像在北京京东和美团会有很兴旺的对比先进的配送机器人。在数字空间来操作机器人,来让实体世界的机器人做出一些举措,就是一个数字孪生体的一个双向映照。数字孪生体其实给数字或者空间数据剖析带来的一个契机,关于数据剖析师来讲,最头疼的一个事儿被解决了,就是数据来源的一个问题。全部数字孪生体一旦建设起来,能够实时不停地从物理世界获得源源不停的数据,尤为是空间数据,能够帮忙剖析师尤为是空间数据的剖析师来做出想要的这个后果。
    第三个故事,基于空间信息的 Python 空间地舆数据剖析


    图片来源于视频
    其实空间数据和地舆数据是有一些不同的,也能够了解成是一个空间的数据。是说空间数据的范畴是更大的地舆数据,由于当初是空间数据中体量最大的一类空间数据,所以会把地舆数据作为一个次要剖析的对象,来作为操作的一个实体。经过对地舆数据的剖析进程的练习,掌握了对地舆数据剖析之后,面对其余种别的空间数据,思绪办法是同样的。


    大家知道 Apache 开发了得多名目,包罗咱们的 Java 或者做大数据剖析,能够知道 MA mapreduce 或者 hadoop 都是他们来做的。
    为何说人体图也是一种空间数据?其实空间数据只有剖析的对象实体有空间的属性,就能用空间剖析的办法来进行剖析。在案例里,当咱们来把鼠标放下去,会来高亮鼠标所在的一个器官。右边的数据,能够在左边的代码里去来抉择我这个数据右边的柱状图代表的是甚么。当初让它代表的不同脏器的体积,能够看到肝的体积,两个肺的体积是最大的。而后是肾,它只画出了一个肾,这个是胰腺的体积,是全部脏体里最小的,这是小肠、大肠,这是心脏,这样一个空间剖析的进程。


    其实有无过学西医的,假如说西医里是讲求阴阳五行均衡,也是讲求不同的脏器之间的互相作用。从中医的角度来看,有的时分心脏的疾病会影响到两肺或者肝脏。在 2016 年加入过互联网医疗名目。过后全部互联网医疗行业,都是尝试使用大数据的办法来建模,把咱们的中医或者西医做成一个模型,再进一步的用机器学习来修改我的模型,最初实现一集体工智能来诊断的零碎。能够看到就是一个空间数据的剖析,也是一个能够帮忙诊断不同疾病或者脏器之间互相影响的办法。


    图片来源于视频
    第二个例子,就是颇有意思的图,就是能够常吃牛排或者有福建的同窗喜爱吃牛肉火锅,牛的不同部位的肉,滋味和质感是纷歧样的,肉的价钱也是纷歧样。这张图展现不同地位牛肉的价钱。在鼠标放在不同的地位上,会悬浮窗显示的是顶值是100,小的是 5 ,做了一个相对于的对比, 85 的地位。就是知道的费劲牛排的地位,标深白色的就是特别贵的,黄色的就是相对于廉价之处。同时,这个图还有一个功用,就是能够筛选出来,好比想吃到 50 到 70 块钱的牛肉,应该取哪个地位?能够拖动底下地位的轴,把而后下限设为 70 假如是一个开牛肉馆,那主人要吃价位的牛肉,就知道要去选这几款牛肉来提供应主人。


    图片来源于视频
    咱们怎么来了解?在课上学了地舆空间数据剖析的办法,在面对宇宙的空间剖析如何来用?地球实际上是一个抽掉淡水之后是左侧的一个外形,非常不规定的,像一个洋芋凹凸不屈。当初看到的包罗百度地图、谷歌地图,是用了一个椭圆的模型,来把地球给现实化成为了一个规定的椭圆。椭圆的进程是把不是说在地球的最外围放一个椭圆把它给包住了,实际上是削平了一些平地,好比喜马拉雅山确定是削掉的,而后填平了得多沟壑,像马里亚里海沟,红海左近的沟壑都是填掉的,得出了一个椭球体,世界上有多个的椭球体,为何会有多个呢?由于基于椭球体,下一步的要建设咱们的坐标系。大家当初熟知的北纬 35 度,咱们的温度,咱们的温带的区域东经 80 度,应该是国际的区域,区域 80 度带到 十二5 度的一个带时是北京时间。那末以经纬度来标记的这样一个坐标,叫大地坐标系。就是一个坐标系,能够看到就是原点是地球的核心,它的原点从这儿发射出来一个 xyz 3轴,也就是熟知的笛卡尔坐标系。为何以前说要感激迪卡尔,创造了广言的概念,又创造了笛卡尔坐标系,来让咱们明天能够来做空间和地舆数据的剖析。
    经过北纬和经度的这个形式,来度量在球体上一个物体空间的地位。固然在详细的剖析过程当中还会参加海拔高度,所以经度、纬度加海拔,就简直能够确认你在地球上的地位。无论是 GPS 仍是斗极,都是使用大地坐标系来进行定位的。那末到右侧能够看到就是使用一切所谓投影的进程,把三维的球体展开到二维的立体上,这是最多见的一个形式。
    像谷歌地图假如你不停地放大,会从立体的地图变为三维的地球。它使用的是叫地舆坐标系或者是大地坐标系。那像百度地图和高德地图,你缩到最小的话,它是一个在屏幕屏展开的一个二维的地图。像它用的就是咱们叫投影坐标系,就是用地舆坐标系通过投影的算法,展开到立体。这是获取地舆和空间数据的进程。


    图片来源于视频
    假如要走出地球面向宇宙中的做一个剖析的话,大家知道,像狭义相对于论提出了一个观念是重型天体四周的空间是被歪曲的,像地球和太阳四周的空间,不是平直的,会有一个形象化的向左侧这个图来展现的,是有一凹陷的,这类立体就是一个非欧几何。笛卡尔坐标系平值的坐标系是建设在欧式几何的一个框架内。在非欧几何一个框架下,欧式几何就用不了。然而能够发现它之间的类似性。就是说其实大 地坐标系也是的非欧式几何的一个模型。能够经过一个投影的算法,把它投影到一个立体的进程。关于任何的从三维向二维的转化的进程,只有它是空间的数据,均可以以为是一个投影的进程。只不外投影是需求使用一些数学的算法来进行计算。像这个图里来,能够看到上边这个椭圆体,经过一些角的办法几何的办法,而后有一些累加累成公式其实特别长,这就没放经过一些办法是能够转化过去的。那末一旦转化过去之后,就能使用丰硕的一种地舆数据剖析的办法来进行操作。


    图片来源于视频
    有无人这样干的,是有的在这个元宇宙以前,来展现一个有人这样干的一个案例。这个案例是甚么?配景是当初都面对这个寰球变暖。除了改动动力使用形式以外,有无一种办法就是来增加太阳辐射到地球的热量。这个团队就想出了一种方法,能不克不及在地球和太阳之间来放一些用这类气泡组成的一个屏障来排汇一部份热量,被称为这个 go engineering 就是这个地舆工程的一种办法。


    图片来源于视频
    通过这类实践的测算,其实用这个实践推导的话,这样一个气泡的阵列能够增加太阳到地球 1.8% 的一个热量的辐射。怎么来做呢?首先它来构建了是做出了一个能够在外太空来存在的不乱存在的这样一种气泡。其真实试验室曾经研制出来了。随后使用空间数据的一个反向推导的办法,这个点就选在了地球和太阳之间第一拉格朗日均衡点的地位。在这个地位,气泡的阵列遭到地球和太阳的引力是相等的,它能够不乱地停在这。当把它缩小之后,就能看到设想出了这样一个圆形的阵列,正好把地球挡在它的面前。就是这样一个很简略的创意,然而这个创意就彻底跳出了地球,如何来从宇宙的角度,如何来改动咱们的气象变暖的问题。
    最初元宇宙的概念。其实元宇宙当初无论是学界仍是业界,实际上是没有一个取得大少数人共鸣的一个定义。我在取了中信证券钻研部的一个对比便于了解的定义。就能了解为元宇宙就是在数字孪生的根底之上,把咱们每一个集体作为一个个体也做了一个数字孪生。每一个集体在数字的虚构空间里都有对应的实体。假如看过头等玩家的电影,会十分容易的来了解概念。
    把人自身来数字孪生化了之后,如何面对元宇宙的数据体和理想世界的自身?那末畅想就是元宇宙的部份,也就是咱们所说的这个数字世界的部份。因为在树的世界里,咱们没有在理想世界里的这个物体的光炎,也就是没有长宽高这样一个必需的空间体。所以我目前是看不到在元宇宙空间中,数字的修建,或者是人的孪生体,是不存在像物理世界里的一个尸体的独一性或者排他性的问题。


    元宇宙里的空间数据剖析会是甚么样?这个当初也想不出来,但愿大家能够在学习的过程当中,可以发现发散本人的思惟。即便是在一个元宇宙的时期,无论是剖析元宇宙中的数据仍是理想世界的数据,终究都是为了来反推每集体他的行动或者进一步的去影响理想世界中人的行动。理想世界只有人类仍是以一个三维实体物种的方式存在,那末就必定会发生空间数据以及与之相干的问题。


    图片来源于视频
    最初简略地提一下课程。用一分钟增补一下,就是但愿课程能够带给大家的一个改动。第一个就是左下角的能够更深化地来了解空间,学完之后大家不会再感觉说空间是一个很虚无缥缈的,或者就看到看四周是所谓的空的货色,能够更深的来了解空间的机理。第二点可能就是假如说在 10 次课的过程当中可以紧跟案例同时实现 10 次功课,使用 Python 假如从小白从 0 开始的话,使用 passing 来根本的编程才能是 OK 的。那末第三个就是基于这两种才能来进行剖析,能够获取一个经过空间数据来洞察信息的才能,但愿可以带给大家的一些改动。回到最开始留上去的两个问题。


    图片来源于视频
    第二个问题是对比首要的,但愿子细思考的这样一个问题,就是学课程的目的是甚么以及数据剖析关于咱们每一个集体,你本人的价值它究竟是甚么?所以关于数据行业,尤为是数据剖析行业,附加值特别高的这样一个工种,说剖析师和数据可视化设计师,当初的人为都是挺高的,仍是一个处于人材重大紧缺的方式下,排除各种报酬的缘故,我以为是像一种行业,能发生如斯高的这个价值,一定有着某些不为人的志愿而改动的一些价值点。
    最初就期待大家到时分能够,带着这个问题的谜底,咱们一同来探究数据之乐。

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    返回列表 本版积分规则

    :
    注册会员
    :
    论坛短信
    :
    未填写
    :
    未填写
    :
    未填写

    主题28

    帖子33

    积分156

    图文推荐