秦爽 蒲含勇
青山ssl适用于网站、小程序/APP、API接口等需要进行数据传输应用场景,ssl证书未来市场广阔!成为成都创新互联公司的ssl证书销售渠道,可以享受市场价格4-6折优惠!如果有意向欢迎电话联系或者加微信:028-86922220(备注:SSL证书合作)期待与您的合作!
(河南省地质博物馆 郑州 450016)
摘要 在扫描数字化的基础上,对原有地质资料进行矢量化,通过查阅MAPGIS手册和总结计算机制图工作的经验,总结了几点利用MAPGIS可以较快绘制地质图件的方法。
关键词 扫描 矢量化 MAPGIS 编辑 数字化
1 引言
扫描矢量化处理算法已比较成熟,将扫描栅格图像转换为矢量地图一般经过图像二值化、平滑与细化、编码与矢量线的提取过程。地质图件含有大量的地质符号,市场上流行的图形矢量化软件对一些矿图(如地质平面图、剖面图、钻孔或坑道素描图)矢量化无法生成相应的矿图符号,目前利用MAPGIS软件对一些地质符号的矢量化可以采用软件中的点、线、面绘图功能进行描绘。
2 MAPGIS绘制地质图时的若干方法
随着计算机科学、地理学、制图学、遥感与摄影测量学、图形图像技术以及数据库技术的不断发展,地理信息系统已成为一种功能强大、性能完善的计算机系统,MAPGIS已经被广泛地用于地质调查与评价、环境评价、矿山治理、地下水监测、地形测量等地质领域。地质图形由于其专业特性,和其他领域如建筑领域图形有很大不同。地质体多为不规则形体,界线多有圆滑曲线构成,常需要大面积色块、图案及花纹来表示不同性质的地质体,如不同的岩体,地貌单元,地质构造,水化学性质、易分区、防治规划区等。
数据是所有信息处理的基础,也是最重要的资源。在基础数据的采集过程中,如何最大限度地保证数据的质量,减少重复工作量是基础信息工作最关键的问题之一。针对这些因素,通过查阅MAPGIS手册和总结计算机制图工作的经验,总结了以下几点利用MAPGIS可以较快绘制地质图件的方法。
2.1 扫描仪录入图形,要保持底图的正确和规范
MAPGIS并不是支持所有的光栅文件格式,它仅支持黑白二值、灰度和彩色(RGB)3种格式的TIF光栅文件,而且还要求其为非压缩(LWZ不选中)格式。所以扫描的光栅文件,最好在PHOTOSHOP中打开此光栅文件,然后重新另存其图像模式即可。
2.2 地形图的绘制
在绘制地形图时,地形图多为基本构件,一般占整幅图数据量绝大部分,可以将地形图中的等高线进行分区划分,由多人同时进行编辑。将不同区的等高线放在相同的图层上而以不同的文件名存储,最后只需对同一图层上的不同文件名的等高线进行合并编辑。
2.3 对图形进行分层
在GIS的应用中,同一文件中有多种类型的地理要素。如一个线文件中可能包括等高线、公路、铁路、河流等多种类型的线。为了便于编辑和管理,一般情况下,可以把同一类型的地理要素放到同一图层,例如:将所有的铁路线都放到铁路图层,而把所有的等高线都存放到等高线图层,这样所有的图层都叠加起来就构成了一个完整的线文件。特殊情况下,一个图层也可存为一个单独的文件,如图1。
图1 修改图层名
每一层上放置某一类地质形体,如等高线、等深线、地物、地层、构造、岩性、水系、化学类型、勘探工程等,分别存在不同的图层上,并使这图层上的点型、线型、区和所在图层一致。这样做的好处是:①通过改变某一图层上的点、线、区不可以改变所有成果图上地质体的点型、线型、和区,加快了编辑修改速度,减少了遗漏;②通过将暂时不需要编辑的形体所在的图层关闭起来,在重新生成图形时,这些形体将不再重新生成,提高图形重新生成速度;③在用某一图层上的形体作临时文件时,可以将其他的图层全部关闭,单独将其提出,便于使用。
2.4 使用专用图案库,来完成大面积色块填充和岩性花纹的填充
图案填充的速度主要取决于确定边界的速度。MAPGIS提供了两种确定填充边界的方法:
(1)拓扑方式。选择该方式造区,不用搜索边界,但需要预先构筑封闭边界;另外,在构筑封闭边界时,尽量使用折线而非光滑曲线。
(2)图形造区内点填充方式。该方式不需要预先构筑边界,但需要在可见区内沿箭头提示方向搜索边界,不得把方向弄错。地质图形中填充边界多为不规则边界,当图幅较大且内容较复杂时,常因边界不闭合或交叉、重复部位较多,局部搜索区域范围大大增加,这时用点填充方式来确定边界搜索速度很慢,编辑地质图形效率很低,不实用;而采用拓扑方式就能弥补上面的不足,并且速度快。MAPGIS在用点方式搜索边界时,因其只搜索可见区域,在解决图面内容简单、较规则的接近正方形、四边形、矩形等区编辑时,较方便快捷。
2.5 点编辑
点是地图数据中点状物的统称,是由一个控制点决定其位置的符号或注释。它不是一个简单的点,而是包括各种注释(英文、汉字、阿拉伯数字等)和专用符号(包括圆、弧、直线、五角星、亭子等各类符号)。它与线编辑中“线上加点”的点的概念不同,“线上加点”的点是坐标点。所有的点图元数据都保存在点文件中(*.WT)。
(1)输入点可以插入图片,但插入后路径不可改变;
(2)阵列复制点可以生成规范、整齐的一系列点;
(3)定位点对于区划项目的灾害点输入很重要。此种方法是输入GPS的坐标值,先把图件的左下角整体移动为坐标值对应的数据,输入后用定位点修改。
2.6 线编辑
线是地图中线状物的统称。MAPGIS将各种线型(如点划线、省界、国界、等高线、路、河堤)以线为单位作为线图元来编辑。所有的线图元数据都保存在线文件中(*.WL)。
(1)折线、流线、光滑线的选择要正确。
(2)在MAPGIS编辑地形图中的等高线文件线时,要时常点击保存。如果一条线画得过长超过MAPGIS允许范围再保存,等高线文件会自动丢失,无法将文件保存下来,严重影响编辑速度。另外,等高线过长,绘图仪也无法识别打印出来,易丢失文件。
(3)MAPGIS6.5和6.6中,一些线会出现毛刺现象(如10号线公路),可以在修改线型中选择把圆角改为尖角或截角。
(4)可使用阵列复制方便快捷地生成整齐规范的图例框等。
(5)输入、修改线型时应当注意对应线型有无辅助线型,若对应线型无辅助线型却输入编号,会在编辑和打印时出现莫名其妙的错误。
2.7 区编辑
区通常也称面,它是由首尾相连的弧段组成封闭图形,并以颜色和花纹图案填充封闭图形所形成的一个区域,如湖泊、居民地等。所有的区图元数据都保存在区文件中(*.WP)。
(1)区颜色编号注意准确,若编辑时使用了系统库内没有的色系编号,在打印时出错可能才能发现。
(2)不要的区删除后,切记删除弧段,否则文件打印定位可能不对,文件内存也会让人感觉莫名其妙的变大。
(3)在编辑图元参数时,点、线、区图元都有透明选项,它主要在印刷制作分色输出时起作用。一般不要使用,否则两个以上叠加区在打印出版时会转色。
2.8 MAPGIS图形快速转为图像的方法
在图形输出子系统中,打开工程文件,“光栅输出”菜单下即可找到生成GIF、TIFF、JPEG命令。图幅较大时,需要生成EPS格式;若生成JPEG格式,在图片浏览时容易造成文件打不开。
3 结束语
在扫描数字化的基础上,对原有地质资料进行矢量化。通过MAPGIS的“输入编辑”模块,在地形图或其他扫描后的栅格图件上采集数据,进行矢量化,形成完整的点、线、面文件,从工作准备、工作策略及技巧、参数设定等方面讨论了提高MAPGIS绘制地质图件速度的方法。
参考文献
计算机地图制图.北京:测绘出版社,1991
第四届全国地质档案资料学术研讨会文集.北京:海洋出版社,2004
地理信息系统参考手册.北京:中国地质大学(武汉)信息工程学院
GIS为各种涉及空间数据分析的学科提供了新的技术方法,而每个相关学科都提供了一些构成GIS的技术与方法。
首先,地图是记录地球表面信息的一种形式,从历史发展来看,GIS脱胎于地图,而计算机制图技术更是为地图特征的数字表示、操作和显示提供了成套方法,为GIS的图形输出设计等提供了理论支持。同时,地图还是目前GIS的基础数据源,但地图强调的是数据分析、符号化与显示,地理信息系统更注重空间分析。
其次,数据库也是GIS的技术基础之一。数据库管理系统主要用于存储、管理和查询各类数据,并尽可能具备一些简单的统计分析功能,这是现代地理信息系统不可缺少的重要组成部分。
第三,遥感作为空间数据的采集手段,成为GIS的重要信息源与数据更新途径。遥感(RS)图像处理系统包含复杂的解析函数,并有许多方法用于信息的增强与分类;大地测量为GIS提供了精确定位的控制信息,尤其是全球定位系统(GPS),可快速、廉价地获取地表特征的数字位置信息;航空拍摄及其精确测量方法的应用使得摄影测量成为GIS主要的地形数据来源。总之,遥感是GIS的重要数据源与更新手段。
第四,计算机科学的发展对GIS起着关键性的影响。按照国际通行的定义,GIS软件的开发和使用基本属于计算机应用理论与方法在加入空间位置要素后的自然延伸,始于计算机出现不久,在最近10~15年,计算机不仅在容量与速度方面都有了质的飞跃,而且随着多媒体、网络、数据库、软件工程、电子技术等的飞速发展,GIS的发展也在突飞猛进(黄杏元,2004a,2004b,2004c)。几乎每一次计算机技术的重要进展都带动地理信息系统技术的重大进步,如空间数据的管理、网络GIS、三维GIS等技术,每一步的重要发展都与计算机信息技术的进展有关。计算机辅助设计提供了数据输入、显示与表达的软件与方法;计算机图形学是现代地理信息系统的基础之一,它提供了图形处理、显示的软硬件及其技术方法;网络的普及使地理信息系统已成为许多机构必备的工作系统,尤其是政府决策部门在一定程度上由于受地理信息系统影响而改变了现有机构的运行方式、设置与工作计划等;人工智能的发展也给地理信息系统的技术进步带来了积极的影响(周成虎,1995)。
简而言之,地理信息系统就是能够输入、存储、管理并处理分析地理空间数据的计算机系统。它随计算机技术发展应运而生,是信息系统技术发展到高级阶段的产物。
GIS(Geographic Information Systems,地理信息系统)是多种学科交叉的产物,它以地理空间为基础,采用地理模型分析方法,实时提供多种空间和动态的地理信息,是一种为地理研究和地理决策服务的计算机技术系统。其基本功能是将表格型数据(无论它来自数据库,电子表格文件或直接在程序中输入)转换为地理图形显示,然后对显示结果浏览,操作和分析。其显示范围可以从洲际地图到非常详细的街区地图,现实对象包括人口,销售情况,运输线路以及其他内容。
引言
地理信息系统(Geographic Information System,简称GIS)是计算机科学、地理学、测量学、地图学等多门学科综合的技术[1]。GIS的基本技术是空间数据库、地图可视化及空间分析,而空间数据库是GIS的关键。空间数据挖掘技术作为当前数据库技术最活跃的分支与知识获取手段,在GIS中的应用推动着GIS朝智能化和集成化的方向发展。
1 空间数据库与空间数据挖掘技术的特点
随着数据库技术的不断发展和数据库管理系统的广泛应用,数据库中存储的数据量也在急剧增大,在这些海量数据的背后隐藏了很多具有决策意义的信息。但是,现今数据库的大多数应用仍然停留在查询、检索阶段,数据库中隐藏的丰富的知识远远没有得到充分的发掘和利用,数据库中数据的急剧增长和人们对数据库处理和理解的困难形成了强烈的反差,导致“人们被数据淹没,但却饥饿于知识”的现象。
空间数据库(数据仓库)中的空间数据除了其显式信息外,还具有丰富的隐含信息,如数字高程模型〔DEM或TIN〕,除了载荷高程信息外,还隐含了地质岩性与构造方面的信息;植物的种类是显式信息,但其中还隐含了气候的水平地带性和垂直地带性的信息,等等。这些隐含的信息只有通过数据挖掘才能显示出来。空间数据挖掘(Spatial Data Mining,简称SDM),或者称为从空间数据库中发现知识,是为了解决空间数据海量特性而扩展的一个新的数据挖掘的研究分支,是指从空间数据库中提取隐含的、用户感兴趣的空间或非空间的模式和普遍特征的过程[2]。由于SDM的对象主要是空间数据库,而空间数据库中不仅存储了空间事物或对象的几何数据、属性数据,而且存储了空间事物或对象之间的图形空间关系,因此其处理方法有别于一般的数据挖掘方法。SDM与传统的地学数据分析方法的本质区别在于SDM是在没有明确假设的前提下去挖掘信息、发现知识,挖掘出的知识应具有事先未知、有效和可实用3个特征。
空间数据挖掘技术需要综合数据挖掘技术与空间数据库技术,它可用于对空间数据的理解,对空间关系和空间与非空间关系的发现、空间知识库的构造以及空间数据库的重组和查询的优化等。
2 空间数据挖掘技术的主要方法及特点
常用的空间数据挖掘技术包括:序列分析、分类分析、预测、聚类分析、关联规则分析、时间序列分析、粗集方法及云理论等。本文从挖掘任务和挖掘方法的角度,着重介绍了分类分析、聚类分析和关联规则分析三种常用的重要的方法。
2.1、分类分析
分类在数据挖掘中是一项非常重要的任务,目前在商业上应用最多。分类的目的是学会一个分类函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个。分类和我们熟知的回归方法都可用于预测,两者的目的都是从历史数据纪录中自动推导出对给定数据的推广描述,从而能对未来数据进行预测。和回归方法不同的是,分类的输出是离散的类别值,而回归的输出则是连续的数值。二者常表现为一棵决策树,根据数据值从树根开始搜索,沿着数据满足的分支往上走,走到树叶就能确定类别。空间分类的规则实质是对给定数据对象集的抽象和概括,可用宏元组表示。
要构造分类器,需要有一个训练样本数据集作为输入。训练集由一组数据库记录或元组构成,每个元组是一个由特征(又称属性)值组成的特征向量,此外,训练样本还有一个类别标记。一个具体样本的形式可为:( v1, v2, ..., vn; c );其中vi表示字段值,c表示类别。
分类器的构造方法有统计方法、机器学习方法、神经网络方法等等。统计方法包括贝叶斯法和非参数法(近邻学习或基于事例的学习),对应的知识表示是判别函数和原型事例。机器学习方法包括决策树法和规则归纳法,前者对应的表示为决策树或判别树,后者则一般为产生式规则。神经网络方法主要是反向传播(Back-Propagation,简称BP)算法,它的模型表示是前向反馈神经网络模型(由代表神经元的节点和代表联接权值的边组成的一种体系结构),BP算法本质上是一种非线性判别函数[3]。另外,最近又兴起了一种新的方法:粗糙集(rough set),其知识表示是产生式规则。
不同的分类器有不同的特点。有三种分类器评价或比较尺度:1) 预测准确度;2) 计算复杂度;3) 模型描述的简洁度。预测准确度是用得最多的一种比较尺度,特别是对于预测型分类任务,目前公认的方法是10番分层交叉验证法。计算复杂度依赖于具体的实现细节和硬件环境,在数据挖掘中,由于操作对象是海量的数据库,因此空间和时间的复杂度问题将是非常重要的一个环节。对于描述型的分类任务,模型描述越简洁越受欢迎。例如,采用规则归纳法表示的分类器构造法就很有用,而神经网络方法产生的结果就难以理解。
另外要注意的是,分类的效果一般和数据的特点有关。有的数据噪声大,有的有缺值, 有的分布稀疏,有的字段或属性间相关性强,有的属性是离散的而有的是连续值或混合式的。目前普遍认为不存在某种方法能适合于各种特点的数据。
分类技术在实际应用非常重要,比如:可以根据房屋的地理位置决定房屋的档次等。
2. 2 聚类分析
聚类是指根据“物以类聚”的原理,将本身没有类别的样本聚集成不同的组,并且对每一个这样的组进行描述的过程。它的目的是使得属于同一个组的样本之间应该彼此相似,而不同组的样本应足够不相似。与分类分析不同,进行聚类前并不知道将要划分成几个组和什么样的组,也不知道根据哪些空间区分规则来定义组。其目的旨在发现空间实体的属性间的函数关系,挖掘的知识用以属性名为变量的数学方程来表示。聚类方法包括统计方法、机器学习方法、神经网络方法和面向数据库的方法。基于聚类分析方法的空间数据挖掘算法包括均值近似算法[4]、CLARANS、BIRCH、DBSCAN等算法。目前,对空间数据聚类分析方法的研究是一个热点。
对于空间数据,利用聚类分析方法,可以根据地理位置以及障碍物的存在情况自动地进行区域划分。例如,根据分布在不同地理位置的ATM机的情况将居民进行区域划分,根据这一信息,可以有效地进行ATM机的设置规划,避免浪费,同时也避免失掉每一个商机。
2.3 关联规则分析
关联规则分析主要用于发现不同事件之间的关联性,即一事物发生时,另一事物也经常发生。关联分析的重点在于快速发现那些有实用价值的关联发生的事件。其主要依据是:事件发生的概率和条件概率应该符合一定的统计意义。空间关联规则的形式是X->Y[S%,C%],其中X、Y是空间或非空间谓词的集合,S%表示规则的支持度,C%表示规则的置信度。空间谓词的形式有3种:表示拓扑结构的谓词、表示空间方向的谓词和表示距离的谓词[5]。各种各样的空间谓词可以构成空间关联规则。如,距离信息(如Close_to(临近)、Far_away(远离))、拓扑关系(Intersect(交)、Overlap(重叠)、Disjoin(分离))和空间方位(如Right_of(右边)、West_of(西边))。实际上大多数算法都是利用空间数据的关联特性改进其分类算法,使得它适合于挖掘空间数据中的相关性,从而可以根据一个空间实体而确定另一个空间实体的地理位置,有利于进行空间位置查询和重建空间实体等。大致算法可描述如下:(1)根据查询要求查找相关的空间数据;(2)利用临近等原则描述空间属性和特定属性;(3)根据最小支持度原则过滤不重要的数据;(4)运用其它手段对数据进一步提纯(如OVERLAY);(5)生成关联规则。
关联规则通常可分为两种:布尔型的关联规则和多值关联规则。多值关联规则比较复杂,一种自然的想法是将它转换为布尔型关联规则,由于空间关联规则的挖掘需要在大量的空间对象中计算多种空间关系,因此其代价是很高的。—种逐步求精的挖掘优化方法可用于空间关联的分析,该方法首先用一种快速的算法粗略地对一个较大的数据集进行一次挖掘,然后在裁减过的数据集上用代价较高的算法进一步改进挖掘的质量。因为其代价非常高,所以空间的关联方法需要进一步的优化。
对于空间数据,利用关联规则分析,可以发现地理位置的关联性。例如,85%的靠近高速公路的大城镇与水相邻,或者发现通常与高尔夫球场相邻的对象是停车场等。
3 空间数据挖掘技术的研究方向
3.1 处理不同类型的数据
绝大多数数据库是关系型的,因此在关系数据库上有效地执行数据挖掘是至关重要的。但是在不同应用领域中存在各种数据和数据库,而且经常包含复杂的数据类型,例如结构数据、复杂对象、事务数据、历史数据等。由于数据类型的多样性和不同的数据挖掘目标,一个数据挖掘系统不可能处理各种数据。因此针对特定的数据类型,需要建立特定的数据挖掘系统。
3.2 数据挖掘算法的有效性和可测性
海量数据库通常有上百个属性和表及数百万个元组。GB数量级数据库已不鲜见,TB数量级数据库已经出现,高维大型数据库不仅增大了搜索空间,也增加了发现错误模式的可能性。因此必须利用领域知识降低维数,除去无关数据,从而提高算法效率。从一个大型空间数据库中抽取知识的算法必须高效、可测量,即数据挖掘算法的运行时间必须可预测,且可接受,指数和多项式复杂性的算法不具有实用价值。但当算法用有限数据为特定模型寻找适当参数时,有时也会导致物超所值,降低效率。
3.3 交互性用户界面
数据挖掘的结果应准确地描述数据挖掘的要求,并易于表达。从不同的角度考察发现的知识,并以不同形式表示,用高层次语言和图形界面表示数据挖掘要求和结果。目前许多知识发现系统和工具缺乏与用户的交互,难以有效利用领域知识。对此可以利用贝叶斯方法和演译数据库本身的演译能力发现知识。
3.4 在多抽象层上交互式挖掘知识
很难预测从数据库中会挖掘出什么样的知识,因此一个高层次的数据挖掘查询应作为进一步探询的线索。交互式挖掘使用户能交互地定义一个数据挖掘要求,深化数据挖掘过程,从不同角度灵活看待多抽象层上的数据挖掘结果。
3.5 从不同数据源挖掘信息
局域网、广域网以及Internet网将多个数据源联成一个大型分布、异构的数据库,从包含不同语义的格式化和非格式化数据中挖掘知识是对数据挖掘的一个挑战。数据挖掘可揭示大型异构数据库中存在的普通查询不能发现的知识。数据库的巨大规模、广泛分布及数据挖掘方法的计算复杂性,要求建立并行分布的数据挖掘。
3.6 私有性和安全性
数据挖掘能从不同角度、不同抽象层上看待数据,这将影响到数据挖掘的私有性和安全性。通过研究数据挖掘导致的数据非法侵入,可改进数据库安全方法,以避免信息泄漏。
3.7 和其它系统的集成
方法、功能单一的发现系统的适用范围必然受到一定的限制。要想在更广泛的领域发现知识,空间数据挖掘系统就应该是数据库、知识库、专家系统、决策支持系统、可视化工具、网络等技术的集成。
4 有待研究的问题
我们虽然在空间数据挖掘技术的研究和应用中取得了很大的成绩,但在一些理论及应用方面仍存在急需解决的问题。
4.1 数据访问的效率和可伸缩性
空间数据的复杂性和数据的大量性,TB数量级的数据库的出现,必然增大发现算法的搜索空间,增加了搜索的盲目性。如何有效的去除与任务无关的数据,降低问题的维数,设计出更加高效的挖掘算法对空间数据挖掘提出了巨大的挑战。
4.2 对当前一些GIS软件缺乏时间属性和静态存储的改进
由于数据挖掘的应用在很大的程度上涉及到时序关系,因此静态的数据存储严重妨碍了数据挖掘的应用。基于图层的计算模式、不同尺度空间数据之间的完全割裂也对空间数据挖掘设置了重重障碍。空间实体与属性数据之间的联系仅仅依赖于标识码,这种一维的连接方式无疑将丢失大量的连接信息,不能有效的表示多维和隐含的内在连接关系,这些都增加了数据挖掘计算的复杂度,极大地增加了数据准备阶段的工作量和人工干预的程度。
4.3 发现模式的精炼
当发现空间很大时会获得大量的结果,尽管有些是无关或没有意义的模式,这时可利用领域的知识进一步精炼发现的模式,从而得到有意义的知识。
在空间数据挖掘技术方面,重要的研究和应用的方向还包括:网络环境上的数据挖掘、栅格矢量一体化的挖掘、不确定性情况下的数据挖掘、分布式环境下的数据挖掘、数据挖掘查询语言和新的高效的挖掘算法等。
5 小结
随着GIS与数据挖掘及相关领域科学研究的不断发展,空间数据挖掘技术在广度和深度上的不断深入,在不久的将来,一个集成了挖掘技术的GIS、GPS、RS集成系统必将朝着智能化、网络化、全球化与大众化的方向发展。
售后响应及时
7×24小时客服热线数据备份
更安全、更高效、更稳定价格公道精准
项目经理精准报价不弄虚作假合作无风险
重合同讲信誉,无效全额退款