数据源的分布范围按照企业信息体系的边界分为企业内部数据源和企业外部数据源。对不同分布范围的数据源进行数据采集,需要调用的资源是不一样的。企业内部数据源主要包括企业的业务系统、财务管理系统、人力资源管理系统、日志采集系统、线下保存数据的办公软件以及企业生产环节的温度传感器等。企业内部数据源承载并提供了绝大部分企业营运管理所需的数据。通常,这部分数据可通过数据库和系统日志等工具进行调取、采集,或运用API(Application Program Interface,应用程序接口)实现开放系统间集成及数据传输。但由于大部分企业内部存在信息孤岛,在面对更广泛的数据采集需求时,建立数据仓库和数据中台则更能发挥优势。企业外部数据源包括政府、高校、机构、行业协会的开放型数据库以及网页与应用程序等。企业通过采集外部数据打通与客户、供应商、竞争对手、政府、相关机构等外部因素的联系,增强了敏觉性。相对于企业内部数据源,外部数据源大多分布广泛且分散,企业通常根据适配性对数据进行筛选,并采用网络爬虫和API的方式采集,从而提高采集的效率和质量。
数据的采集路径可分为两类:一类是将存在于物理世界的数据复刻至数字世界中;另一类是将本身存在于数字世界的数据搬运至企业的数据仓库、数据平台或者数据中台。据此,可将数据源分为物理世界中的数据源和数字世界中的数据源。物理世界中的数据源是以物理实体为载体,借助物理设备进行数据采集,实现从物理世界向数字世界的转化。企业的经营环境中存在着大量物理世界中的数据源,包括条形码、二维码、传感器、工控设备等。针对物理世界中数据的不同形态,有对应的采集方式及技术。典型的采集技术包括OCR(Optical Character Recognition,光学字符识别)以及ICR(Intelligent Character Recognition,智能字符识别)技术、ASR(Automatic Speech Recognition,自动语音识别)技术、RFID(Radio Frequency Identification,无线射频识别)技术等。这些技术可以帮助企业实现数据转换,打造企业级的数字世界。数字世界是通过对物理世界的感知,借助数字技术、互联网、云技术等科技力量逐步构建起的对物理世界的映射。数字世界中的数据源存在于各种软件、系统或程序中。这些数据虽存在于数字世界,但也并非是自然相通的,需要借用技术与工具将数据采集、汇聚至企业的数据仓库、数据平台、数据中台中,为下一步数据的抽取、清洗、装载做好准备。常见的数据采集工具包括系统日志、数据库、网络爬虫、API等。
目前,财务采集数据中非结构化数据仍然占较大比例,非结构化数据能够提供多样化的信息,帮助人们更全面地理解事物深层 内涵。非结构化数据包括非结构化文档、图像、音频以及视频等数据。采集非结构化数据需要针对性的技术以及系统工具。NLP(Natural Language Processing,自然语言处理)技术是一种可以应用在非结构化文本数据采集领域的人工智能技术,旨在利用计算机分析自然语言语句和文本,抽取重要信息,进行检索、问答、自动翻译和文本生成,能够从非结构化数据中抽取有价值的数据。在财务领域,合同、内部公文制度等复杂的非结构化文档海量存在,NLP技术不仅实现了数据的自动采集,更实现了语义的自动理解。在合同智能审核情境中,应用NLP技术可自动识别合同文本,标注并抽取其中的关键信息如合同主体、专业术语、合同金额等,形成结构化数据,借助语言模型算法对获取的结构化信息进行模型判断,对合同文本形式、合同主体合格性、合同实质等进行初步核查,辅助人工进一步审核。