词频抽取器
处理模式
处理模式 | 是否支持 |
---|---|
批处理 | 支持 |
流处理 | 不支持 |
同步流 | 不支持 |
数据验证 | 不支持 |
配置
词频抽取器支持两种抽取方式。
- 上传文件进行抽取
- 输入网址进行抽取
上传文件进行抽取
操作步骤:
- 切换至“抽取网址”选项卡
- 拖动文件至上传区域,或者点击上传区域并选择文件进行上传
- 待上传结束后,点击“保存”按钮
特性:
- 支持多文件上传,文件个数最多 5 个,文件的总大小限制为 16 MB
- 支持的文件格式:.txt, .docx, .csv, .xls, .xlsx
- 支持的文件编码:UTF-8
输入网址进行抽取
操作步骤:
- 切换至“抽取网址”选项卡
- 输入你要抽取的网址
- 点击“保存”按钮
输出
字段 | 数据类型 | 描述 |
---|---|---|
word(主键) | STRING | 词 |
frequency | BIGINT | 该词在文本中出现的次数 |
TIP
通过 DataFocus 加载器,你可以很方便的将数据录入 DataFocus 系统,展示词云图。