Skip to content

词频抽取器

处理模式

处理模式是否支持
批处理支持
流处理不支持
同步流不支持
数据验证不支持

配置

词频抽取器支持两种抽取方式。

  1. 上传文件进行抽取
  2. 输入网址进行抽取

上传文件进行抽取

操作步骤:

  1. 切换至“抽取网址”选项卡
  2. 拖动文件至上传区域,或者点击上传区域并选择文件进行上传
  3. 待上传结束后,点击“保存”按钮

特性:

  1. 支持多文件上传,文件个数最多 5 个,文件的总大小限制为 16 MB
  2. 支持的文件格式:.txt, .docx, .csv, .xls, .xlsx
  3. 支持的文件编码:UTF-8

输入网址进行抽取

操作步骤:

  1. 切换至“抽取网址”选项卡
  2. 输入你要抽取的网址
  3. 点击“保存”按钮

输出

字段数据类型描述
word(主键)STRING
frequencyBIGINT该词在文本中出现的次数

TIP

通过 DataFocus 加载器,你可以很方便的将数据录入 DataFocus 系统,展示词云图。

词云图