一、应用场景
原始需求如下图所示,用户需要将表格中的用户姓名、手机号、身份证、银行卡以及费用类型分别提取,并形成一张表格,原始Excel文件为多个从其它系统中导入的文件,处理后形成的结构化数据支撑用户做进一步的数据统计分析。
二、解决方案
1、使用工具箱的【批量抓取Excel文本内容】工具、并添加需要抓取数据的源文件,如下图所示:
注意:编辑的规则可以保存为【规则模板】,也可以保存为【任务脚本文件】,方便后续重复操作。
2、编辑数据抓取规则,文本抓取规则主要通过正则表达式进行文本匹配提取内容,正则表达式有一定的使用门槛,普通用户很难根据需求编辑出能够正常工作的正则表达式,系统内置了大量常用的文本匹配分析规则,如:电话号码、手机号码、邮箱、IP地址、身份证号,还提供了一种最常用的文本范围匹配规则,通过这些规则可以解决用户90%的日常文本匹配提取需求。
3、执行数据抓取任务,生成相应的Excel电子表格文件。