使用正则表达式提取文本内容中的电话号码、邮箱、IP地址等内容

一、应用场景

    原始需求如下图所示,用户需要将表格中的用户姓名、手机号、身份证、银行卡以及费用类型分别提取,并形成一张表格,原始Excel文件为多个从其它系统中导入的文件,处理后形成的结构化数据支撑用户做进一步的数据统计分析。

正则表达式处理.jpg

二、解决方案

1、使用工具箱的【批量抓取Excel文本内容】工具、并添加需要抓取数据的源文件,如下图所示:

批量抓取Excel文本内容.jpg

注意:编辑的规则可以保存为【规则模板】,也可以保存为【任务脚本文件】,方便后续重复操作。


2、编辑数据抓取规则,文本抓取规则主要通过正则表达式进行文本匹配提取内容,正则表达式有一定的使用门槛,普通用户很难根据需求编辑出能够正常工作的正则表达式,系统内置了大量常用的文本匹配分析规则,如:电话号码、手机号码、邮箱、IP地址、身份证号,还提供了一种最常用的文本范围匹配规则,通过这些规则可以解决用户90%的日常文本匹配提取需求。

批量抓取文本数据.gif


3、执行数据抓取任务,生成相应的Excel电子表格文件。

执行批量抓取文本数据.gif