图片

OpenKG TOC专家谈

导读

OpenKG平台近日推出了“TOC专家谈”栏目,旨在分享OpenKG TOC(技术监督委员会)成员的专业观点。本期,我们有幸邀请到东南大学的漆桂林教授和柯基数据的CEO吴刚,他们将就“大模型与知识图谱的结合”分享他们的见解。本文内容整理自“OpenKG走进通义实验室”的Talk活动。

大模型与知识图谱的融合探索

背景介绍

随着人工智能技术的飞速发展,大模型和知识图谱已成为AI领域的两大支柱。本文将探讨如何将这两种技术融合,以应对大模型面临的挑战,并利用知识图谱优化大模型的性能。

技术特点与优势

  • 大模型:拥有强大的数据处理能力和广泛的应用场景,但同时也存在一定的局限性。
  • 知识图谱:以其结构化的知识表示和丰富的语义信息,为大模型提供了坚实的知识基础。

专家探索

东南大学的漆桂林教授和柯基数据CEO吴刚,分别从学术和工业界的角度,对“大模型+知识图谱”的结合进行了初步的探索和实践。

结合方法

本文将简要介绍两位专家在融合大模型与知识图谱方面的基本方法和策略,以及它们如何相互补充,共同推动AI技术的进步。

结论

通过结合大模型的计算能力和知识图谱的知识结构,我们期待能够解决现有问题,并为AI领域带来新的突破。

总结

OpenKG的“TOC专家谈”栏目为我们提供了一个深入了解AI技术前沿的平台。通过漆桂林教授和吴刚CEO的分享,我们对大模型与知识图谱的结合有了更深入的理解。期待未来更多专家的加入,共同推动AI技术的发展。
图片
在人工智能领域,语言模型和知识图谱都扮演着知识库的角色,但它们在知识表示和存储方式上存在显著差异。

语言模型与知识图谱的区别

  1. 知识表示方式
  • 知识图谱采用显性的图模型结构,通过节点和边来表示知识,便于检索和推理。
  • 语言模型则以参数形式存储知识,通过自然语言处理技术进行知识的检索和应用。
  1. 知识获取方式
  • 从知识图谱中获取知识通常采用结构化查询,例如使用三元组匹配图谱中的节点和边。
  • 语言模型则通过自然语言提示(Prompt)来提问,以获取所需的知识。
  1. 知识工程视角
  • 从知识工程的角度来分析,语言模型和知识图谱在人工智能的发展中各自扮演着不同的角色。
  1. 人工智能发展与应用
  • 理解语言模型和知识图谱在人工智能发展中的作用,有助于我们更好地把握当前和未来的AI技术趋势。

结构化与非结构化知识检索的比较

  • 结构化查询(如知识图谱)便于快速定位和精确匹配,但可能受限于图谱的构建和维护。
  • 非结构化查询(如语言模型)提供更灵活的交互方式,但可能需要更复杂的算法来确保准确性。

未来展望

  • 随着技术的进步,语言模型和知识图谱的结合可能会带来更加强大和灵活的知识检索与应用方式。

结论

  • 语言模型和知识图谱各有优势,它们在人工智能领域的应用前景广阔,值得进一步研究和开发。
    图片
    在人工智能领域,知识图谱与语言模型是两种重要的技术,它们各自具有独特的优势和局限性。以下是对这两种技术的对比分析:
  1. 语言模型
  • 属于连接主义,通过神经网络构建,能够捕捉数据中的统计规律。
  • 以参数化形式存储知识,是一种概率生成模型,擅长处理语言的生成和理解任务。
  • 优势在于能够通过大量数据学习语言模式,生成自然语言文本。
  • 劣势是生成的内容可能存在不确定性,因为其基于概率进行预测。
  1. 知识图谱
  • 属于符号主义,通过图结构组织知识,明确表示实体之间的关系。
  • 以符号化形式存储知识,是一种稳定生成模型,适用于知识检索和推理。
  • 优势在于知识结构清晰,便于进行逻辑推理和知识查询。
  • 劣势是构建和维护成本较高,且对新知识的适应性不如语言模型。 两种技术在不同的应用场景下各有千秋,选择合适的技术需要根据具体需求进行权衡。
    图片

语言模型作为知识库的局限性分析

1. 事实性错误与幻觉问题语言模型在训练过程中,由于输入文本可能存在问题,以及模型采用概率方法学习知识,导致其在问答时可能产生偏见、幻觉,以及溯源能力不足。特别是在专业领域,如医药大健康和法律,对知识的准确性要求极高,语言模型的这一局限性尤为明显。

2. 专业知识局限性在专业领域的知识问答中,语言模型的回答往往不够准确。这些领域对知识的专业性和准确性有着严格的要求,而语言模型直接应用时,其局限性显而易见。

3. 稳定逻辑知识的获取困难基于概率的语言模型在获取高质量的稳定逻辑知识方面存在挑战。例如,长尾知识的问答和抽取能力不足,逻辑推理能力不稳定等问题。

4. 知识编辑与更新的挑战语言模型使用神经网络参数存储知识,其规模远超知识图谱,导致编辑和更新知识变得极其困难。与知识图谱相比,语言模型的知识库不是可视化的,查询结果为非结构化文本,难以验证准确性。此外,知识更新往往需要借助外部方法,而非模型自身能力,这与人类学习过程中的知识更新能力形成鲜明对比。

5. 知识校验的难题语言模型的知识校验面临重重困难,需要通过不断优化算法和模型结构来提高其准确性和可靠性。

以上分析指出了语言模型作为知识库时所面临的主要问题,这些问题的存在限制了其在某些领域的应用潜力。
图片

我们也做过一些调研和实验,比如在OCR的时候对PDF文件进行版面分析和文字提取,发现提取的准确率并没有我们想象中的那么高,其中包括对Abstract的提取,还有Title的提取和Author的提取等。

图片

图片
尽管当前的多模态大型语言模型在许多方面表现出色,但实际测试中,我们发现它们在某些能力上的表现并不尽如人意。例如,在文本的分段提取方面,这些模型有时会遇到问题,导致关键信息的提取不够精确。此外,在知识检索方面,模型在召回所有相关文档片段时可能存在不足,同时对文本片段的排序效果也未必理想。

知识图谱与大模型的双轮驱动方法论

为了解决这些问题,我们可以采用知识图谱和大型语言模型的双轮驱动方法论。这种方法结合了知识图谱的精确性和大模型的灵活性,以期达到更好的效果。具体来说,我们可以从以下几个方面着手:

  1. 文本分段与关键信息提取:优化模型的训练数据,提高其对文本结构和关键信息的识别能力。

  2. 知识检索优化:利用知识图谱的结构化特性,增强模型在检索时的准确性和召回率。

  3. 排序算法改进:通过算法优化,提高文本片段排序的相关性和准确性。 通过这种方法论,我们可以期望在文本处理和知识检索方面取得更好的成果。
    图片

医药大健康行业的双轮驱动策略

背景与挑战在医药大健康领域,企业面临诸多挑战,尤其是当尝试利用大语言模型进行应用开发时。尽管大模型在初期能提供较高的准确度,但随着深入应用,其准确度提升变得困难。医药行业因其专业性和对合规性的高要求,对准确性的需求近乎苛刻。例如,医疗行业可能要求答案的准确性达到100%,这使得单纯依赖大模型的解决方案难以满足需求。

双轮驱动框架为了解决上述问题,我们提出了“双轮驱动”的框架。这一策略的核心在于结合知识图谱大语言模型的优势,以提高应用的准确性和合规性。

知识图谱的作用知识图谱能够提供结构化的知识,帮助解决大模型可能遇到的幻觉问题和知识冲突问题,同时确保答案的可追溯性。

大语言模型的优势大模型在减少知识图谱构建成本方面具有显著优势,特别是在自动化打标签和信息抽取方面。

双轮驱动的实施实施双轮驱动策略需要在有限的预算内,有效地结合知识图谱和大模型,以发挥其最大价值。这涉及到以下几个关键步骤:

  1. 自动化与成本效益:利用大模型提高知识图谱构建的自动化程度,降低成本。
  2. 准确性与合规性:通过知识图谱增强大模型,解决专业领域中的准确性问题,确保合规。
  3. 循证溯源:确保所有答案都能追溯到其知识源头,提高答案的可信度。

面临的挑战在工程实施过程中,最大的挑战是如何在有限的预算下,实现知识图谱与大模型的有效合,以解决医药大健康行业的特定问题。

结论双轮驱动策略为医药大健康行业提供了一种新的解决方案,通过结合知识图谱的结构化知识和大模型的自动化能力,有望解决行业面临的准确性和合规性挑战。

图片

图片
去年,我们与工信部标准院合作完成了一份研究报告,深入探讨了知识图谱与大型语言模型相结合的双轮驱动模式。报告主要分为两个部分:

  1. 大模型辅助生成知识图谱:通过利用大型语言模型的半自动化能力,可以高效地构建和更新知识图谱。这一过程不仅提高了知识图谱的构建效率,同时也保证了其质量和准确性。

  2. 知识图谱增强大模型能力:将知识图谱注入到大型语言模型中,可以显著提升模型在特定领域的理解和推理能力。这种融合使得模型能够更好地处理复杂问题,提供更为精准和深入的回答。 对于对这一研究领域感兴趣的同学,推荐在网上搜索相关研究报告以获取更多详细信息。
    图片
    在企业实际应用中,通常采用以下几种人工智能技术落地方式:

  3. 提示工程:这是一种通过给定提示(Prompt)来引导模型生成预期结果的方法。它以简单高效著称,是实现人工智能应用的常见选择。

  4. 检索增强:目前最为流行的技术之一,主要通过结合检索机制(如RAG)和知识库,来增强大型模型的API调用能力,实现更精准的信息检索和内容生成。

  5. 模型微调:通过对基础模型进行针对性的调整,以适应特定的应用场景。市面上许多大型AI模型都采用了这种技术来优化性能。

  6. 基础模型重构:这是一种成本较高的方法,涉及到对基础模型架构的全面改造,以实现更高级的功能。例如,某些AI产品如’文心一言’可能采用了这种技术路径。 在这些方法中,检索增强技术因其结合了外部知识库和检索机制,已成为当前的主流选择,广泛应用于内容生成和信息检索领域。
    图片

它其实是把你的一些文档文献或者一些数据进行向量化,再把你的问题去跟它匹配。这里它是在缺乏上下文的理解,还有领域的业务理解进行的。它在应用上有一定的瓶颈。

图片
在解决RAG模型的瓶颈问题时,我们计划采用知识图谱技术进行优化。以下是我们优化策略的具体步骤:

  1. 文档向量化:首先,我们将通过离线方式对上传的文档进行向量化处理,以便在知识图谱中进行有效索引。

  2. 实时知识图谱增强:当用户在线提出问题时,我们将利用知识图谱技术实时增强问题,以提高问题理解的深度和广度。

  3. 语义定位:结合问题增强和知识图谱,我们将更精准地定位到文档中与问题相关的段落。

  4. 技术整合:我们将整合传统技术,包括检索技术、ES技术和Prompt技术,以形成一个综合解决方案。

  5. 问答系统构建:最后,我们将结合定位到的文本段落、问题增强以及传统技术,将这些信息输入到大型模型中,以生成更精准的问答结果。 此外,我们还关注医药行业的数智化发展,旨在通过先进的技术手段,推动医药行业的数字化转型和智能化升级。
    图片
    在医药行业实施知识图谱技术面临诸多挑战,包括图谱构建成本、专业领域知识图谱的构建方法、以及知识更新的运维能力。企业用户更关注信息处理的高效性和成本效益。以下是医药行业实施知识图谱的两个主要原因:

  6. 带量采购政策影响 随着药品专利保护期的结束,药企面临销量减少和价格下降的风险。为了应对这一挑战,药企必须加速新药研发,以保持市场竞争力。

  7. 医疗反腐导致营销模式转变 当前的医疗反腐政策限制了医药代表进入医院的传统营销模式,迫使企业转向线上推广。这要求企业采用更高效、自动化的方式进行医生的学术推广和患者教育。 为了适应这些变化,医药行业正在加速数字化转型,并推动新药研发。企业通过在线平台,如微信等,为内部医疗销售、医学市场人员以及外部的医生和患者提供智能化服务。这不仅提高了服务效率,也降低了运维成本。 以下是医药行业实施知识图谱的具体步骤和考虑因素:

  • 构建知识图谱:需要考虑专业知识的收集、整理和结构化,以及图谱的持续更新和维护。
  • 运维能力提升:建立有效的知识更新机制,确保知识图谱能够反映最新的医疗知识和政策变化。
  • 智能化服务:利用在线平台提供定制化服务,满足不同用户群体的需求,包括医疗销售、医学市场人员、医生和患者。 通过这些措施,医药行业能够更好地应对市场变化,提高研发效率,同时为用户带来更高质量的服务体验。
    图片

我们在最近几年也做了大量的企业数字化的知识库、Chatbot和各种应用。不管是临床研究情报系统,还是说产品上市之后做学术的推广、患者的教育、面向药店的助手以及销售这种助手等等。

图片
在构建企业级知识系统的过程中,我们遇到了几个主要问题。首先,尽管我们采用了知识图谱和自然语言处理技术来生成内容,但传统系统仍然需要大量的人工参与,包括打标签、构建图谱和生成FAQ等,这导致了成本的增加。其次,企业级应用对合规性有严格的要求,尤其是在医药行业,所有内容都必须经过人工审核,这限制了大模型的应用,因为即使是极小的错误率也是不可接受的。此外,知识图谱在多轮对话、个性化推荐和分析方面的应用效果并不理想,因为图谱构建成本高,问答系统需要大量的模板支持。例如,在工程领域,用户的提问方式稍有变化,系统可能就无法给出准确的回答。这些问题导致了知识生产效率低下,用户体验差,智能化程度不高,使得系统难以得到有效推广。然而,随着大型语言模型的出现,客户们开始询问这些模型是否能够解决上述问题,实现内容的自动化生产,并提升交互的智能化,从而改善用户体验。
图片
在过去的一年半时间里,我们与多家药企及其他行业客户合作,完成了众多概念验证(POC)和应用落地项目。我们成功构建了一个结合’大模型+知识图谱’的双轮驱动平台。 我们采取了一种升级现有系统的方法,而不是从头开始。我们利用大语言模型的能力,对现有的知识库、聊天机器人(Chatbot)和情报系统进行了升级改造。 通过整合大模型的智能化生产内容和智能交互功能,我们旨在提升用户体验,帮助企业降低成本、提高效率,并快速构建智能化应用,为企业客户创造真正的价值。

GraphRAG应用及落地的挑战

在GraphRAG应用和落地过程中,我们面临了多方面的挑战。以下是一些关键点:

  1. 技术融合:将大模型与知识图谱技术有效结合,实现数据和算法的深度整合。

  2. 用户体验:确保智能化应用能够提供流畅、直观的交互体验,满足用户需求。

  3. 成本效益:在升级过程中,平衡技术创新与成本控制,确保项目的经济效益。

  4. 快速部署:开发灵活的应用框架,使企业能够迅速部署和调整智能化解决方案。

  5. 持续创新:面对不断变化的市场需求,持续优化和更新平台功能,保持技术领先。
    图片
    在企业应用落地过程中,我们面临了诸多挑战。为了应对这些挑战,我们计划采取以下措施:

  6. 自动化升级:我们将基于“知识图谱+大模型”技术,对现有的情报系统、知识库以及Chatbot进行自动化升级,以提高工作效率。

  7. 多渠道入口:我们计划建立一套统一的多渠道入口系统,整合内外部资源,提供便捷的服务接入点。

  8. 系统对接:通过将内部各种系统进行有效对接,实现信息共享和流程协同,从而提升整体服务能力。

  9. 端到端效率提升:我们的目标不仅仅是在单点上应用算法或RAG技术,而是通过这些技术从端到端提升整个企业应用的效率。 通过这些措施,我们期望能够实现企业应用的全面升级,提高服务质量和效率。
    图片

企业级知识平台构建方案

概述我们计划构建一个集FAQ、知识图谱与GraphRAG技术于一体的企业级知识平台。该平台将整合现有的FAQ资源,利用知识图谱问答技术,并借助GraphRAG技术,以知识图谱增强大语言模型来生成内容。

技术分布

  • FAQ应用:占整体能力的10%,作为基础问答支持。
  • 知识图谱问答:占20%,提供结构化信息的查询与回答。
  • GraphRAG技术:占70%,利用知识图谱增强大语言模型生成内容。

核心策略平台的核心在于使用知识图谱辅助从原文中组装段落,并以此作为溯源,形成最终结果。这种方法完全符合合规性,避免了内容生成中的幻觉问题和不合规挑战。

系统优势

  • 效率提升:实现端到端的自动化流程,减少人工干预。
  • 合规性保障:通过知识图谱的辅助,确保内容生成的合规性。
  • 智能化能力:整合大模型的写作、总结能力,以及对接不同私有模型和API的能力。

知识图谱的角色知识图谱作为知识库的重要组成部分,将在整个系统中发挥关键作用,提供结构化数据支持和内容生成的准确性。

结语通过构建这样一个综合性的知识平台,我们不仅能够提升企业的知识管理效率,还能确保内容的合规性与准确性,同时降低运营成本。

图片
在处理专业领域的问题时,如新生儿是否可以接种肝炎疫苗,我们面临一个挑战:通用的大型语言模型可能因为缺乏特定行业的语料而无法提供准确的答案。为了解决这个问题,我们可以采取以下步骤:

  1. 意图识别:首先使用大型语言模型对用户的问题进行意图识别。

  2. 知识图谱增强:然后通过知识图谱对问题进行增强,以提问题的逻辑性和准确性。

  3. 文献定位:使用增强后的问题在海量文献中定位相关段落。

  4. 向量检索匹配:将问题向量化,并与知识库中的文档进行匹配,找到相关的段落。

  5. 段落召回与重叠:可能通过两种方式召回的段落会有重叠,也可能会有新的段落。

  6. 段落排序与筛选:使用大型语言模型对召回的段落进行排序和筛选,挑选出最相关的段落。

  7. 答案组装:基于筛选出的段落,组装出一个符合原文的答案。

  8. 智能化与人工校验:虽然牺牲了一定的智能化能力,但通过人工校验确保答案的合规性。同时,考虑通过多轮对话提升智能化水平。

  9. 内容生成与审核:在生成内容时,考虑使用大型语言模型进行审核,以提高效率并保证内容的准确性。 这个过程不仅提高了答案的准确性,也通过人工校验确保了答案的合规性。同时,我们也在探索如何将智能化能力融入到这个平台中,以提供更加高效和准确的服务。
    图片
    在构建数据系统时,我们采用分层的方法来处理不同来源的数据。首先,我们通过自动化分类和大模型标注,对数据进行结构化处理。例如,我们可以根据数据的性质和用途,构建不同层次的知识图谱。

  10. 数据结构化:利用大模型对数据进行自动分类和标签化,以实现数据的有序组织。

  11. 知识图谱建设:根据不同的应用需求和成本考量,构建不同精细度的知识图谱。例如,对于需要高度专业化的导诊应用,我们将构建一个详尽的医学知识图谱。而对于问答系统或个性化推荐,我们可能只需要构建到词级或段落级的知识图谱。

  12. 内容生成:利用大模型生成FAQ,并结合原文段落的组装或总结方法,以提供基础答案。目前,我们已有80%的内容可以通过大模型生成,然后通过溯源原文进行内容的验证和补充。

  13. 专业性与合规性:在处理专业性和合规性问题时,知识图谱的能力显得尤为重要。通过知识图谱,我们能够确保提供的信息既专业又符合规定。
    图片
    随着智能平台的逐步建立,我们可以采取分阶段的方法来构建整个知识库,以支持不同形式的内容生成。以下是构建过程的详细步骤:

  14. 知识图谱构建:首先,我们需要构建一个全面的知识图谱,这将作为我们内容生成的基础。知识图谱将包含各种实体和它们之间的关系。

  15. 自动问答系统:利用FAQ作为起点,我们可以开发一个自动问答系统。这个系统将能够理解用户的问题,并提供准确和及时的答案。

  16. 标签系统:通过智能平台,我们可以更好地开发和优化标签系统。这将帮助用户更快地找到他们感兴趣的内容。

  17. 人机协同:智能平台将支持人机协同工作,使得知识库的构建更加高效和准确。通过结合人类的专业知识和机器的计算能力,我们可以创建一个更加强大的知识库。

  18. 持续优化:知识库的建设是一个持续的过程,需要不断地收集反馈,优化算法,并更新内容以保持其相关性和准确性。 通过这些步骤,我们可以确保知识库的建设和维护是系统化和高效的。
    图片

上面是我们搭建的一个智能信息库的平台,这里面其实会有大量的人机协同的方式,进行自动的打标签,然后构建我们的知识图谱。

图片

我们也可以通过大模型的一些能力,快速构建一个文档级别或者段落级别的知识图谱。

图片

这个是我们从OCR的识别、段落的摘要、段落标签等各个领域方向去更好的构建一些自定义抽取,包括状态里面细粒度知识点的一些抽取。

图片

然后,我们也可以构建一个专业领域的知识图谱,辅助我们完成更精准的问答。

图片
在构建系统后,运维能力的重要性不言而喻。首先,数据源的更新是必不可少的,它直接影响到系统数据的实时性和准确性。其次,知识图谱的更新同样关键,它能够确保系统的知识库保持最新状态,从而提供更准确的信息和更智能的决策支持。此外,大模型的能力更新也是必要的,这有助于提升系统处理复杂问题的能力,增强其适应性和灵活性。最后,Prompt的更新也是不可忽视的一环,它能够使系统更好地理解用户意图,提供更加个性化的服务。因此,知识运维应提供多层次的知识更新能力,使非专业人员也能轻松参与到知识更新的过程中,实现系统的持续优化和升级。
图片

这就需要一套全流程的方法,让整个系统在不同时间数据更新之后,或者用户的反馈之后,能保证更新的数据质量是可控的,以及将数据更自动化的录入到系统中。

图片

基于这些原理,我们在给客户的各种系统进行一个升级,不管是自动化的内容生成,还有基于语料、ChatBot、知识图谱对大模型做的一个符合合规要求,都能以全流程的方式提高它整体效率。

图片

这是我们跟一些药企合作的案例,他们提供各种内容,我们基于框架快速生成他们需要的一些FAQ,或者一些知识点等内容,从而大幅提高他们整体内容生产的效果。

图片
随着技术的进步,我们对FAQ内容的生产方式进行了重大升级。现在,我们利用大语言模型,不仅能够实时地组装已有的段落,还能进行内容的进一步总结,从而确保生成的内容既符合合规要求,又具有智能化的特点。以下是我们升级后内容生产的详细步骤:

  1. 实时组装:通过大模型,我们能够快速地将已有的FAQ段落进行实时组装,大幅度提升了内容生产的效率。

  2. 内容总结:在组装的基础上,大模型还能对内容进行智能化的总结,使得FAQ更加精炼和易于理解。

  3. 合规性检查:在生成和总结内容的过程中,我们确保所有内容都严格符合合规要求,保障信息的准确性和安全性。

  4. 审核流程:尽管生产速度加快,我们依然保留了必要的审核流程,确保内容的质量和可靠性。 通过这种方式,我们大大缩短了FAQ内容从生产到上线的时间,从原来的一到两个月缩短至实时生成,极大地提高了工作效率。
    图片
    在对药企用户进行服务的过程中,我们开发了GraphRAG技术,以增强现有能力。通过与基础的RAG技术进行效果对比,我们发现GraphRAG在提升准确性、理解力和问答效果方面具有显著优势。以下是我们采用的方法概述:

  5. 技术对比:首先,我们对GraphRAG与RAG技术进行了效果对比分析。

  6. 方法简化:我们的方法在设计上力求简洁,避免复杂性。

  7. 上下位关系:利用词与词之间的上下位关系,增强了模型对语义的理解。

  8. 级别划分:通过不同级别的词汇划分,进一步提升了模型的识别与处理能力。

  9. 阶段性增强:在不同阶段,我们采取了针对性的策略来增强大语言模型的表现。 我们相信,通过这些方法的实施,能够在药企领域的应用中,显著提高大语言模型的效能。
    图片
    我们目前正在致力于提升多模态问答能力,这包括对表格、图片等多种形式的理解和处理。为了实现这一目标,我们将利用图谱技术来更准确地定位表格内容,并提高问答的准确性和效率。以下是我们提升多模态问答能力的几个关键步骤:

  10. 多模态数据理解:首先,我们需要加强对表格和图片等多模态数据的理解能力,这涉及到对数据结构的识别和内容的解析。

  11. 图谱技术应用:利用图谱技术,我们可以构建知识图谱,将表格中的数据和图片中的信息进行关联和整合,从而更好地理解和回答问题。

  12. 信息提取与整合:在理解多模态数据的基础上,我们将进一步提取关键信息,并将这些信息整合到问答系统中,以提供更丰富、更准确的答案。

  13. 问答系统优化:最后,我们将对问答系统进行优化,确保系统能够处理复杂的知识并提供高质量的回答。 我们相信,通过这些步骤,我们能够显著提升多模态问答的能力,为用户提供更加精准和全面的信息。
    图片

我们还对具有法律法规这种知识的大模型的问答进行一个更好的升级。

图片

总结

图片
近两年,我们在技术升级和应用落地方面进行了多方面的尝试和探索。以下是我们所面临的挑战和应对策略的总结:

1. 企业级应用的合规性要求

  • 医药行业等专业领域:这些领域对合规性、循证和监管备案有严格的要求。
  • 应对策略:我们采取了折中的方法来满足监管合规性的要求。

2. 技术限制与投入产出平衡

  • 重视投入产出比:企业应用非常关注投入产出比,与科研课题不同。
  • 价值产出:我们探索如何通过技术投入带来成本降低和效率提升。

3. 知识图谱的构建与运维成本

  • 成本问题:客户关心如何降低知识图谱的构建和运维成本。
  • 小图谱与大图谱:提出小图谱概念,以低成本启动,逐步增强RAG并展现价值。

4. 工程化与可运维能力

  • 关键能力:OCR、表格抽取等工程化能力至关重要。
  • 开源框架:建议根据客户场景和预算,使用开源框架提升投入产出比。
  • 数据验证:使用开放数据进行低成本验证,再进行私有化部署。

5. 合规性与服务实现路径

  • 业务与法律合规:引入业务和法律部门,确保服务合规。
  • 监管备案:考虑监管备案的周期和成本。
  • 实现路径:从内部开始,逐步实现由内到外的服务。 以上总结了我们近两年在技术升级和企业应用落地方面的工作和思考。
    图片

然后,右边是我们的公众号,也有一些关于RAG和GraphRAG的技术介绍,大家有兴趣可以关注看看,谢谢!

以上就是本次分享的内容,谢谢!

图片

图片

作者简介

INTRODUCTION

图片

漆桂林

图片
东南大学计算机与软件工程学院的教授,同时担任东南大学认知智能研究所的所长,是OpenKG的核心发起人之一,也是OpenKG TOC的专家。在学术界,担任《Journal of Data Intelligence》的主编和《Journal of Web Semantics》的副主编。获得江苏省六大人才高峰和创业南京高层次人才的资助。出版了2部专著,并发表了200多篇高水平学术论文在科研项目方面,主持和参与了包括科技部重点研发项目、国家863计划、自然科学基金重点项目和面上项目在内的10余项国家级知识图谱相关项目,以及与阿里云、支付宝、百度等企业合作的知识工程相关项目。
图片

作者简介

INTRODUCTION

图片

吴刚

图片

个人简介

  • 教育背景:中国科学院软件研究所毕业,专业为人机交互与智能信息处理。

  • 学术职务:中国人民大学信息学院硕士研究生导师。

  • 专业领域:专注于信息学、人工智能、人机交互和智能信息处理。

职业经历

  • 汤森路透(科睿唯安):曾任中国区首席顾问,该公司在全球医药智能数据领域处于领先地位。

  • 柯基数据:担任CEO,致力于数据科学和人工智能领域的创新与发展。

  • OpenKG:作为技术监督委员会成员,参与开放知识图谱联盟的建设与发展。

社会职务

  • 中国计算机学会CCF:高级会员,积极参与计算机科学领域的学术交流与研究。

  • 中文信息学会:语言与知识计算专业委员会委员,医疗健康与生物信息专委委员。

  • 工信部知识图谱标准委员会:参与制定知识图谱相关标准。

  • 世界中医药学会联合会:担任理事,推动中医药领域的国际交流与合作。

  • 中国中医药信息学会:标准委员会常务理事,致力于中医药信息标准化工作。

  • 其他:包括中华预防医学会、中国生物医药产业链创新与转化联盟等,参与多个专业领域的研究与实践。

专业贡献

  • 在知识图谱、人工智能、医疗健康等领域具有丰富的研究与实践经验。

  • 参与多个国家级和行业级标准的制定,推动相关领域技术的发展与应用。
    图片

OpenKG TOC介绍

OpenKG TOC(Technical Oversight Committee)是OpenKG开放社区的技术监督机构。其主要职能包括:

  • 技术指导:为社区提供专业的技术指导。
  • 技术监督:确保社区的管理和运行规范化。
  • 宣传布道:推广知识图谱技术的应用和发展。

首批专家成员首批OpenKG TOC的专家成员由20名来自不同领域的资深专家组成,他们分别来自:

  • 国内外知名高校,如浙江大学、东南大学、同济大学等。
  • 国内外顶尖企业,包括蚂蚁集团、华为等。
  • 研究机构,如中科院信工所、国防科技大学等。

OpenKG宗旨OpenKG致力于推动中文知识图谱的发展,其核心目标是:

  • 促进知识图谱数据的开放和互联。
  • 推动众包模式在知识图谱领域的应用。
  • 支持知识图谱相关算法、工具和平台的开源开放。

参与机构以下是参与OpenKG TOC的部分机构列表:

  • 浙江大学
  • 东南大学
  • 同济大学
  • 清华大学
  • 南京大学
  • 北京大学
  • 武汉科技大学
  • 北京邮电大学
  • 苏州大学
  • 天津大学
  • 中科院信工所
  • 国防科技大学
  • 东北大学
  • 英国爱丁堡大学
  • 意大利卑尔根大学
  • 蚂蚁集团
  • 华为
  • 阿里通义实验室
  • 恒生电子
  • 柯基数据

专家职责专家们将在OpenKG授权范围内,为社区提供以下服务:

  • 技术指导,帮助社区成员解决技术难题。
  • 技术监督,确保社区的健康发展。
  • 宣传布道,提升知识图谱技术的知名度和应用范围。
    图片
    ’ fill=’%23FFFFFF’%3E%3Crect x=‘249’ y=‘126’ width=‘1’ height=‘1’%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)

点击阅读原文,进入 OpenKG 网站。