Flink

刘超 12天前 ⋅ 4911 阅读   编辑

  flink中文文档Flink DocumentationFlink Forward 全球在线会议实时提问Flink v1.10 官方中文文档

一、介绍
  1、Flink应用场景
    事件驱动型应用、数据分析型应用、数据管道&ETL型应用
  2、Flink优势特点
    友好的APIs、优秀的性能、高可靠的正确性、海量数据的计算、灵活便捷的运维
  3、Flink组件栈及架构
    部署层、Runtime层、优化层、API层、语言层、扩展层
  4、Flink环境准备
    环境依赖要求、IDE和开发配置、Hello Flink

二、Flink命令

三、概念

  窗口计算
  1、时间类型
  2、流计算乱序(那rebalance后面接什么算子,不会产生乱序呢)
  3、Watermark水位

四、Flink程序(经验总结)

  1、高级API,对用户没有语言功底的要求,只需要对关系操作有一定的了解,就可以实现业务逻辑

  1.1 Table API/SQL(与DataStream/DataSet区别)

    1.1.1 APIs分类
    1.1.2 关系代数&SQL
    1.1.3 connectors(消息队列,Push/Pull模式、Operator state in Source)

组件 分类 source sink
clickhouse https://github.com/ivi-ru/flink-clickhouse-sink/blob/master/src/main/java/ru/ivi/opensource/flinkclickhousesink/ClickhouseSink.java
hive flink connectors例子
kafka flink connectors例子
SQL flinksql kafka定义例子
jdbc flink connectors例子

    1.1.4 TableEnvironment
    1.1.5 TableOperators
    1.1.6 Table API/SQL DDL
    a、Hopping/Sliding窗口 滑动窗口
    b、滚动窗口
    c、session窗口
    1.1.7 自定义函数(UDF)
    1.1.8 Check Pointing

  1.2、PyFlink API

  1.3、DataStream API

  2、Flink状态管理

  3、ML Pipeline API

  4、Flink CEP API

五、性能

  1、数据倾斜
    如何识别反压节点以及原因方案

  2、作业延迟及吞吐之间的关系

  3、JVM
    JVM结构(新生代、老年代、持久代)
    GC
    Heap & NonHeap

  4、IO
    磁盘(寻道时间、旋转延迟、数据传输时间)
    内存
    序列化、反序列化、BinaryRow
    MiniBatch

六、运行及辅助

  1、集群类型及作业部署

  2、日志

  3、调试

七、案例

  1、数据分析型案例

八、生态

  1、CEP
  2、图计算
    常用场景有哪些
    有向图、无向图
  3、机器学习
    Pipline API
      Pipeline
      Transformer
      Estimator
      Model
  4、PyFlink
    UDF(如何定义、注册一个UDF、如何加载UDF第三方依赖)


注意:本文归作者所有,未经作者允许,不得转载

全部评论: 0

    我有话说: