大数据api的一些思考

背景

目前很多业务方碰到需要数据就找数据平台,一些数据需求是合理的,但是一些数据需求是不合理的,根据公司的情况简单列一下,碰到此类问题的解决方案。

另外数据平台目前还是以数据仓库人员为主,开发rd比较少,提供的API还是以通用数据为主。

需求分析

  1. 数据API的开发和维护成本较高,要弄清楚以下几件事情
    1. 每天的数据量是什么样,小数据量的用不到数据平台
    2. 当前的数据是否业务方都能获取,或者已经在自己的数据库中,都能获取的无需数据平台重复开发
    3. 计算复杂度如何,关联,排序,全量历史数据计算?
    4. 是否可以复用,不可复用的要谨慎
    5. 是否可以接受延迟,目前实时延迟+15min,离线t+1
    6. 数据获取后是否有下一步的业务动作,如果有要谨慎,不能卡业务流程 eg 形成一些任务需要操作
    7. 数据的计算或者获取中,是否存在业务逻辑规则,注意尽量数据平台不存储业务规则,维护成本不可持续
    8. 是否有下钻到明细层的需求,如果有,注意需要的其实是明细,而不是汇总的结果,数据平台只能提供汇总型的明细,业务规则由业务端实现
    9. 尽量提供离线数据,实时开发成本较高
  2. 数据API比较适合提供哪类数据
    1. 数据资产型数据,例如用户生命周期类数据
    2. 可以大量复用的数据,例如一些常用的业务数据,已定量
    3. 业务数据无法计算的数据,例如相关流量数据
    4. 画像,数据建模,搜索等数据应用类数据
  3. 主要形式
    1. API的形式
    2. 推送到Kafka
    3. 推送到业务数据库mysql
    4. 提供mysql数据库查询权限
    5. 提供hive表的查询权限
    6. 提供es的查询权限

未来

数据部门应该形成自己的数据应用类产品,例如cdp等,结合公司规则引擎等产品,提供更高层次的数据服务。

暂无评论

发送评论 编辑评论


|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇
下一篇