3.3数据分析

DB Civil具备丰富的库内分析模块,为用户提供统一分析环境。

3.3.1库内分析-SQL

基于PostgreSQL语法研发,全面集成Postgres开源功能和特性,支持JSON、JSONB、XML、INTERVAL等多种类型,及相关操作、函数,支持范围、列表等类型的分区,支持多层分区嵌套,支持BTree、Bitmap、GIN、GiST等多种类型的索引,支持物化视图、CTE、递归查询,提供ANSI SQL 2008标准。

3.3.2 MADlib

DB civil内置顶级学习算法库MADlib,实现机器学习的全生命周期功能,通过SQL语句实现了调用开源机器学习算法库。其中不但包括基本的线性代数运算和统计函数,而且还提供了常用的、现成的机器学习或数据挖掘模型函数。用户不需要深入了解算法的程序实现细节,只要搞清楚各函数中相关参数的含义,从而提供正确的入参,并且能够理解和解释函数的输出结果即可。这种使用方式无疑会极大地提高开发效率,节约开发成本。

3.3.3 Python&R

DB civil内置丰富的库内分析模块Python&R,能够灵活定制,自由扩展,开发人员可以使用R、Python、Perl、Java、 pgsql等语言编写用户自定义函数(UDF)、自定义类型(UDT),或者引入开源的算法。

3.3.4全文检索

DB civil支持全文检索技术,检索以诸如文字,声音,图像等非结构化数据等为主要内容,以检索文献资料的内容而不是外表特征,支持中文信息检索,并可进行专业词汇扩展,针对文本进行全文检索,可以结合MADlib、Python进行文本分析和自然语言处理,支持对PDF等文档提供Rest API访问。

3.3.5空间地理分析

DB Civil可实现海量GIS数据的存储和分析处理、其具备广泛的数据格式支持,高度优化的查询处理函数,支持空间数据索引,支持栅格(raster)数据类型,可以满足大规模空间数据的索引、存取和计算等要求。在气象数据、地震数据、室内外定位、手机与车联网等领域都有广泛的应用。