技术优势
四大核心引擎
- 数据质量控制引擎
通过机器学习和人工检验相结合的方法持续地交叉验证各个数据项,去重和及补全失项。
- 多维数据分析引擎
-
GEO大数据多维数据查询分析引擎,提供上卷、下钻、切片、模糊查询等复杂数据分析服务。支持10亿级用户量,单用户下数十万维度数据的高效查询分析,对简单查询提供10万QPS的处理能力,同时利用列存储和内存计算,实现百亿级数据分析的秒级响应。支持集奥金融营销平台、金融风控平台、集奥广告DMP。
-
支持按用户ID查询用户
输出对应14万维度精细化标签。
-
支持按标签查询人群和统计
输入“旅游”一词,输出包含旅游标签的所有人群,并提供多维度分类统计,例如性别、年龄、手机型号、旅游子分类、金融子分类、兴趣倾向分类等。
-
支持模糊查询
输入“白金卡”,输出工商银行白金卡、建设银行白金卡等包含白金卡的所有人群,并根据指定的维度分类统计,例如性别、年龄、手机型号、旅游子分类、金融分类、兴趣倾向分类等。
-
支持按用户ID查询用户
- 海量数据机器学习引擎
基于MPI和Spark来构建的海量数据的机器学习引擎,支持10亿级别样本和10亿级别特征的超大规模模型训练,支持online-learning和batch-learning,内嵌回归、分类、topic-model、graphical-model等多种模型算法,并支持特征工程、特征自动选取、样本集清洗、模型离线评估、交叉验证等完整的模型生产流程。目前应用于金融风控模型、兴趣倾向预测、金融智能营销等场景。
- 数据深度挖掘引擎
-
利用集奥多维度的丰富的大数据,结合海量数据挖掘技术和机器学习技术,可以做到各种维度的关联分析、隐含知识挖掘、社交图谱和时间序列分析,不断从大数据矿山中挖掘出各种各样的“宝石”。
示例1: 多屏识别,跨屏跟踪
利用集奥海量数据和ID-Mapping算法识别出同一个人在多台设备(手机,PC,iPad)上的行为,把多设备标签汇总到一起,形成完整的用户画像。示例2:行为的时间序列分析
拉长时段观测一个人的行为变化,能建模一个行为的兴起、发展、满足、迁移等过程。用于客户激活,生命周期管理,产品设计等。