实验环境和评估过程

附录 12 展示了本研究中使用的实验环境,详细说明了硬件和软件配置。VAE 和 RL 模型的参数设置在附录 34 中提供。

实验使用多个指标评估了所提出的 VAE 和 RL 组合在文化创意产品设计中的性能,包括模型准确度、生成质量、用户满意度和计算效率。这些结果与传统单模型的结果进行了比较,这些单模型尚未集成多种技术或方法。这些单模型包括基本方法,如 GANs、VAEs 和 RL。

在评估生成设计的质量时,既应用了定量措施,也应用了定性措施。在定量方面,使用结构相似性指数(SSIM)来评估 AI 生成设计与历史数据中的参考设计之间的相似性,从而提供输出准确性和质量的客观衡量标准。SSIM 基于亮度、对比度和结构特征来评估图像相似性。此外,还使用对比保真度、纹理保真度和色彩保真度来分别评估视觉对比度、纹理细节和色彩再现准确性,通过将生成设计与现实世界的对应物进行比较。纹理保真度可以通过提取纹理特征(如使用高博滤波器)并计算这些提取特征之间的相似性来分析。SSIM 公式在公式(4)中给出:

SSIM(x,y)=(2μxμy+C1)(2σxy+C2)(μx2+μy2+C1)(σx2+σy2+C2)

(4)

在公式()中, 和 是图像和的均值, 和 是它们的方差, 代表两个图像之间的协方差,而 和 是常数,用于防止除以零。对比保真度,用于评估生成的图像中对比度保留得如何,定义为公式():

Contrast~Fidelity=stdgeneratedstdreference

(5)

在公式()中, 是生成图像的标准差,而 是参考图像的标准差。对比保真度值接近 1 表示对比度保留强烈。

使用 CIEDE2000 颜色差异公式评估颜色保真度,如公式()所示。

\varvec{\Delta}E00=(L1∗−L2∗)2+(a1∗−a2∗)2+(b1∗−b2∗)2

(6)

在公式()中,Lab 代表 CIE Lab 颜色空间中的颜色分量。

对于定性评估,使用了一套全面的评估标准以确保设计作品达到高标准。这些标准包括创新性、审美吸引力、文化相关性、文化适应性和设计实用性。创新性指的是设计的独特性和创造性。专家使用评分量表评估创新性水平,采用1到10的评分范围,其中1表示缺乏创新,10代表高度创造性。量表定义如下。例如:1-3分表示缺乏创新,设计接近常见、重复的图案;4-6分反映了一些创新但缺乏明显区别;7-8分展示了强烈的创新性和显著的独特性;9-10分代表高度创新的设计,展示了突破性想法。

审美吸引力侧重于设计的视觉影响,包括色彩搭配、形状和构图等元素。用户和专家根据设计的审美质量进行评分,确保评价过程的客观性和一致性。文化相关性评估设计与特定文化的契合度。专家根据设计在文化沟通中的有效性进行评分,确保设计不仅具有审美吸引力,而且与文化的意义产生共鸣。文化适应性评估设计如何有效地融入特定文化背景。专家根据设计体现的文化元素进行评分,确保其与目标文化的相关性。最后,设计实用性关注设计在实际应用中的可行性,评估功能、可用性和市场接受度。

为了收集专家反馈,邀请来自文化创意产业各个领域的专业人士——如设计师、文化研究人员和市场分析师——参与。在评估之前,专家接受评估标准和评分系统的培训,确保他们完全理解每个指标的要求和含义。专家使用标准化的评审表对设计进行评分,确保评估过程的系统性和一致性。同时,通过结构化问卷收集用户反馈,涵盖视觉吸引力、文化沟通有效性和设计实用性等方面。用户使用李克特量表对每个方面进行评分,辅以开放式问题以获得更深入的见解(例如,1表示强烈不同意,5表示强烈同意)。

在分析阶段,收集到的评分数据将进行统计分析,计算每个标准的平均值和标准差。方差分析(ANOVA)用于评估不同设计之间的显著差异。此外,对用户开放式反馈进行主题分析,以识别关键模式和主题,提供有价值的见解。这个评估框架有助于更好地理解文化创意产业中的设计性能,为未来的设计实践提供理论依据和实践建议。

用户交互数据,如查看、选择和修改设计等动作,为用户与设计的互动提供了洞察。为了提高计算效率,重点在于评估模型在设计生成过程中的运行时间和资源消耗。在相同的硬件条件下记录每个模型的生成设计的时间测量,以便对不同模型之间的计算效率进行对比分析。然后,将这些数据与传统单一模型的表现进行比较,从而全面评估将变分自编码器(VAE)和强化学习(RL)模型结合用于文化创意产品创作的优势。

性能评估

模型生成结果

图5展示了由所提出模型生成的几个设计案例的结果。

图5

figure 5

生成设计案例样本(a. 陶瓷;b. 纺织品;c. 家具)。

这些示例表明,生成的设计在保留原始设计元素的同时,成功融合了创新特性,提升了其创造性和想象力。例如,在图 5a 中,景德镇陶瓷融入了由原始博物馆藏品启发的额外创意图案和流畅元素,从而对瓷器进行了更具动态感和视觉吸引力的诠释。在图 5b 中,纺织品通过引入独特的颜色和复杂的刺绣重新诠释了传统清代的服装,将传统工艺与现代风格元素相结合,以符合当代审美偏好。同样,图 5c 通过融入现代设计元素重新想象了古代椅子,创造了一件视觉上创新的物品,它将古代中国设计的巧妙与现代审美标准相协调,对当代观众极具吸引力。

生成产品的定量评估结果

模型准确性的评估结果如图 6 所示。

图6

figure 6

不同模型对文化元素识别精度的评估。

在图 6 中,VAE+RL 模型在所有指标上表现出色,尤其是在准确率和 F1 分数上优于其他模型。VAE+RL 模型的准确率达到 94.5%,显著超过其他单一模型,如 VAE(92.3%)、RL(88.7%)和 GAN(87.0%)。这些发现强调了将 VAE 与 RL 结合在复杂设计生成任务中捕捉全局和局部特征的有效性,从而提高了整体性能。相比之下,GPT 和 Llama-3 模型也表现出可嘉的性能,分别达到 90.4%和 91.2%的准确率。虽然这些模型在文本生成任务中表现出色,但与 VAE+RL 模型相比,在处理跨模态任务,尤其是需要无缝集成视觉和文本数据时,它们存在一些局限性。值得注意的是,GPT 和 Llama-3 模型的召回率分别为 91.7%和 90.8%,反映了它们在识别设计元素方面的强大能力。 然而,VAE+RL 模型在设计多样性和创新方面表现更优,实现了 93.4%的 F1 分数,进一步强化了其在设计质量和用户满意度方面的优越性。

尽管 GAN 模型在各种生成任务中得到广泛应用,但本研究中其表现相对较差,仅实现了 87.5%的 F1 分数,低于其他模型。这一结果突显了 GAN 模型在处理设计复杂性和创新方面的局限性,因为它在平衡生成质量和设计创意方面,不如 VAE+RL 模型有效。这些发现表明,VAE+RL 模型不仅在准确性和召回率方面表现出色,而且在整体性能上也优于其他模型,尤其是在生成高质量、创新设计样本方面。虽然 GPT 和 Llama-3 模型在文本生成方面表现出卓越的能力,但当面对需要设计创新和多模态数据整合的任务时,它们的有效性会降低。这种对比突显了结合 VAE 和 RL 技术的巨大优势,这有助于在文化和创意产品设计领域中提高设计和优化的生成能力。

图 7 展示了不同模型生成质量的可视比较,说明了 VAE+RL 方法所取得的优越成果。

图7

figure 7

不同模型生成质量的比较。

7 提供了不同模型生成质量的比较分析,强调了 VAE+RL 模型在所有评估指标上的优越性。VAE+RL 模型实现了 0.92 的 SSIM、0.95 的对比度保真度、0.94 的纹理保真度和 0.93 的数字颜色保真度。这些结果表明,由 VAE+RL 模型生成的设计不仅与真实世界的结构特征紧密一致,而且在对比度、纹理和颜色方面表现出卓越的保真度。这种卓越的性能归因于 VAE 和 RL 的协同作用。VAE 有效地捕捉了现有设计中的多样化潜在表示,而 RL 通过与反馈机制的交互迭代优化这些设计,产生高质量的输出。

与 GPT 和 Llama-3 模型相比,它们也提供了强大的生成性能,尤其是在结构相似性和对比度保真度方面。GPT 实现了 0.89 的 SSIM 和 0.91 的对比度保真度,而 Llama-3 记录了 0.88 的 SSIM 和 0.90 的对比度保真度。这些模型虽然主要是为自然语言生成而开发的,但它们显示出强大的生成能力,这些能力扩展到了设计任务。然而,它们在纹理保真度和数字色彩保真度方面的表现略低,这反映了它们在基于图像的生成方面的有限专业化,与 VAE+RL 方法相比。

当独立使用时,VAE 和 RL 的生成质量适中。VAE 记录的 SSIM 为 0.87,对比度保真度为 0.90,纹理保真度为 0.88,数字色彩保真度为 0.85。同样,RL 实现的 SSIM 为 0.85,对比度保真度为 0.88,纹理保真度为 0.85,数字色彩保真度为 0.84。虽然这两个模型单独产生的设计是连贯的,但它们的输出缺乏通过结合使用所达到的精致质量。相比之下,GAN 模型在所有指标上都表现不佳,SSIM 为 0.83,对比度保真度为 0.86,纹理保真度为 0.83,数字色彩保真度为 0.81。虽然 GAN 以其生成多样化设计的能力而闻名,但它们经常面临模式崩溃和训练不稳定等挑战,这会对其一致性和整体质量产生负面影响。这些结果强调了将 VAE 和 RL 集成的巨大好处,尤其是对于需要高保真输出和创新设计能力的任务。 该组合在文化创意产品设计领域证明是一种稳健的方法,与传统的单一模型方法相比,提供了更优越的性能和适应性。

生成产品的定性评估结果

图8展示了专家和用户根据定义的指标对各种设计作品进行的定性评估分数,分数范围从1(非常差)到10(优秀)。

图8

figure 8

定性评估结果。

图8所示的评分结果显示:

  1. 1.

    设计 A,包括三个陶瓷产品,在创新性和审美吸引力方面获得了高分,特别强调设计的实用性,导致用户满意度达到 95.2%。这种设计因其能够将传统陶瓷技术与现代创意元素相结合而受到认可,确保了视觉吸引力和功能性。

  2. 2.

    设计 B,展示了三个改进版的清代服装,在文化相关性和文化适应性方面表现出色,得分 9 分。这个分数反映了设计成功地将传统文化元素与当代方面相结合。尽管其审美吸引力略低于设计 A,但其整体表现仍然强劲,用户满意度为 90.3%,表明其将文化遗产与现代美学融合的有效性。

  3. 3.

    设计 C,包括三件增强的家具(椅子),在创新性和文化相关性方面均获得了 9 分,反映了设计成功地将传统文化元素与现代设计创新融合。该设计的用户满意度为 90.7%,凸显了将设计创新与文化表达相结合的家具的吸引力。

结果表明,在不同设计类型中,创新性、文化适应性和用户满意度方面存在差异。设计 A 在实用性和美观性方面表现出色,而设计 B 则展示了将文化遗产与现代改进相结合的价值。设计 C 进一步突出了将文化相关性与创新设计相结合的潜力,为家具设计领域提供了宝贵的见解。

模型效率评估

图9展示了不同模型的资源消耗和运行时间。

图9

figure 9

资源消耗和运行时间的比较。

图9比较了各种模型的资源消耗和运行时间,为它们的计算效率和适用于实时设计生成提供了见解:

  1. 1.

    VAE+RL 模型表现出色,平均训练时间为 5 小时,平均推理时间为 0.2 秒。这种高效率使其非常适合实际应用,在需要快速生成高质量设计的场景中,它提供了快速周转时间环境下的竞争优势。

  2. 2.

    GPT 和 Llama-3 模型在生成能力方面表现出色,但在资源消耗和运行时间方面相对较低效。GPT 平均需要 8 小时进行训练和 0.4 秒进行推理,而 Llama-3 需要 9 小时进行训练和 0.35 秒进行推理。这些较长的训练时间反映了这些模型更高的计算需求,这可能会限制它们在速度和效率至关重要的实时设计应用中的有效性。

  3. 3.

    VAE 和 GAN 模型资源消耗适中,分别需要 6 小时和 7 小时进行训练,推理时间分别为 0.25 秒和 0.3 秒。这些模型在生成质量和资源效率之间取得了平衡,适用于需要高质量输出和优化资源使用的应用。

  4. 4.

    RL 模型在推理方面效率较高,但训练时间最长,需要 8 小时。其推理时间为 0.35 秒,与其他模型相当,但需要较长的训练期来有效优化设计决策。

总结来说,VAE+RL 模型在文化创意产品设计方面成为最有效和高效的选择,既提供了优越的生成质量,又具有资源效率。相比之下,GPT 和 Llama-3 模型在计算上要求更高,可能更适合拥有充足计算资源或对质量要求更严格的场景。这项分析突出了每种模型的优点和局限性,有助于指导它们在不同环境中的最佳应用。

统计分析结果

为了进一步验证这些发现,进行了一项方差分析测试,表 1 提供了每个模型的调整后性能统计。

表 1 中的数据清楚地展示了 VAE+RL 模型在文化创意产品设计中的优越性能。传统设计方法,平均得分为 72.24,明显不如更现代的方法,显示出它们在处理复杂和创新设计任务方面的有限能力。与较新的、数据驱动的模型相比,这些传统方法在效率和设计创新方面都存在不足。VAE 模型在传统方法上显示出显著的改进,平均得分为 86.84,反映了其强大的生成能力,能够生成创新设计。然而,尽管 VAE 在设计创意方面表现出色,RL 模型——得分为 84.33——在优化决策过程方面特别强大。虽然 RL 模型显示出有希望的结果,但其设计创新略逊于 VAE 模型,正如预期的那样,因为它专注于优化而不是生成设计。VAE+RL 模型实现了最高的平均得分 90.50,强调了 VAE 的生成能力和 RL 的决策能力之间的协同作用。 这种组合不仅促进了更高水平的设计创新,还提升了用户满意度。此外,VAE+RL 模型的方差为 2.00,表明其在各种设计任务中表现出稳定的性能,确保了持续的高质量成果。广泛的评分范围(从 87.00 到 94.00)进一步强调了该模型在不同类型的文化和创意设计方面提供卓越结果的可靠性。

尽管 GPT 模型(平均分:89.00)和 Llama-3 模型(平均分:87.00)在创新方面表现良好,但它们的优势主要在于文本生成和处理复杂设计问题。当涉及到决策优化和整体设计处理时,这两个模型都落后于 VAE+RL 模型。GPT 和 Llama-3 虽然在文本生成方面表现出色,但缺乏 VAE+RL 模型所提供的集成设计优化能力。总的来说,VAE+RL 模型在文化创意产品设计方面脱颖而出,不仅提升了设计创新,还提高了设计过程的效率和稳定性。这种组合在设计质量、用户满意度和设计优化方面领先,为该领域的未来发展提供了有价值的见解和强大的技术支持。与单独的 VAE、RL、GPT 和 Llama-3 模型相比,VAE+RL 为文化创意产品设计提供了更全面和有效的解决方案。

转换测试结果

为了评估 VAE+RL 模型的智能,进行的图灵测试涉及确定模型生成的设计是否可以被视为与人类设计师创建的设计无法区分。这项测试直接揭示了模型的生成能力和模仿人类创造力的能力。

VAE+RL 模型最初用于生成一系列设计方案,确保多样性和创造性。这些设计融合了各种风格和主题,以模拟现实世界的文化和创意设计任务。然后,将这些设计与人设计师创作的作品混合,形成一套全面的评估集。为了保持评估过程的公平性,所有设计都被匿名化,移除了任何可能表明设计是由 VAE+RL 模型或人设计师生成的可识别标记。由 20 位设计专家和 20 位普通用户组成的评审团进行了双盲评估。每位评估者都获得了一套设计,包括 VAE+RL 模型生成和人创作的作品。评估者的任务是判断每个设计是否由人创作,他们的判断基于创新、实用性和艺术价值等因素。收集完评估后,计算了被错误识别为人创作的模型生成设计的比例。 每个评估者的分类结果随后进行汇总,并使用混淆矩阵以及准确度指标来评估模型的智能水平。

表 2 展示了基于不同设计类型和评估者组的反馈。每个测试都包括来自 VAE+RL 模型和人类设计师的 20 个设计样本。

表 2 展示了 VAE+RL 模型在不同设计类型中的性能变化。该模型在现代艺术和数字插画中的设计常被视为人造,显示出在这些领域的强大性能。相比之下,VAE+RL 模型在传统工艺和产品设计中的表现较弱,产品设计的准确率明显较低,这一点由专家和普通用户共同评估得出。

在现代艺术和数字插画领域,VAE+RL 模型表现突出。对于现代艺术,专家将模型生成的 12 个设计识别为类似人类创作,准确率达到 60.0%。普通用户评估 17 个设计,准确率更高,达到 85.0%。在数字插画类别中,专家评估 17 个设计,准确率为 85.0%,而普通用户评估 19 个设计,准确率达到 95.0%。相反,该模型在传统工艺和产品设计方面效果较差。对于传统工艺,专家识别出 13 个设计,准确率为 65.0%,而普通用户评估 17 个设计,准确率为 85.0%。在产品设计方面,专家评估 15 个设计,准确率为 75.0%,而普通用户评估 16 个设计,准确率为 80.0%。总体而言,设计专家通常比普通用户达到更高的准确率,反映了他们对设计的更精确评估。普通用户在现代艺术和数字插画方面表现更好,但在传统工艺和产品设计方面准确率较低。 这种差异可能归因于设计经验和细节敏感度的差异。

讨论

VAE + RL 模型在设计质量和用户满意度方面的出色表现凸显了其在生成高质量和吸引人的产品设计方面的有效性。Jang 等人指出,将生成模型与决策优化方法相结合可以显著提高设计解决方案的质量和多样性。这一发现与该观点相符,因为 SSIM 和用户满意度指标均高于其他模型。此外,用户对设计创新的高评价强调了创新在文化创意产业中的关键作用,反映了 Chen 的观点,他认为创新是文化产品成功的关键驱动力。尽管 VAE + RL 模型的表现令人印象深刻,但其资源消耗和运行时间限制是重要的考虑因素。Zhan 等人指出,高度复杂的模型优化会导致计算成本显著增加。 这表明,虽然该模型在设计质量和用户满意度方面表现出色,但其计算需求可能会阻碍其更广泛的应用,尤其是在资源受限的环境中。

VAE + RL 模型的优点超越了传统的评估指标,展示了其对市场需求的适应性。正如 Vuong 和 Mai53 所断言,将生成模型与决策优化相结合,更有效地满足市场对创新和个性化的需求。这种集成使得 VAE + RL 模型能够产生更符合用户期望的设计解决方案,从而加强其在市场中的竞争优势。然而,鉴于模型的高计算需求,进一步的研究应专注于优化计算效率。例如,模型剪枝和量化等技术可以帮助减少资源消耗,同时保持核心性能。Choudhary 等人 54 建议,模型压缩技术有助于降低计算成本并提高实际应用效率。此外,分布式计算和并行处理等策略可以减少模型训练和推理时间,提高计算效率。 超越文化和创意设计领域,VAE+RL 模型的设计优化能力在其他多个领域也具有潜力。应用可以扩展到建筑设计和产品开发等领域。未来的研究应探索这些跨领域应用,评估模型在不同设计任务中的性能,并开发针对性的优化策略以增强其效用。

与类似研究进行比较,突出了所提出的研究方法及其成果的优势。例如,刘等人 55 探讨了人工智能在劳动力市场中的应用,强调基于统计分析的数据驱动决策支持。相比之下,当前研究不仅提供数据驱动的设计决策支持,还通过 VAEs 生成多样化的设计解决方案,并通过 RL 提高设计效率和用户满意度。此外,这种方法专门针对文化创意设计领域,应用场景的特定性和生成解决方案的创造性代表了该模型的关键优势。

同样,李等 56 关注了基于 AI 的工业感知,解决了智能制造中的传感器和数据处理挑战。虽然他们的研究强调硬件集成和工业优化,但本研究专注于优化文化创意领域的工程设计流程,大幅提高了设计质量和用户体验。例如,本研究中用户满意度达到了 95%,而现有的工业感知模型往往忽略了设计解决方案的用户反馈。此外,该模型通过纳入文化适应性和多样性生成评估来填补现有研究的空白。此外,朱 57 提出了一种基于深度强化学习的自适应智能体决策模型,应用于物流领域的决策优化。虽然这两项研究都利用了强化学习框架,但当前研究通过将强化学习与变分自编码器(VAEs)相结合而脱颖而出。这不仅优化了设计决策,还利用生成模型来增强文化创意产品的设计解决方案的多样性。 此外,该模型强调基于用户反馈生成优化解决方案,与物流领域对效率和路径优化的关注形成显著区别。因此,这种方法特别适合设计创新领域,展现出更强的适应性和实际意义。

上述比较分析突出了在文化创意设计领域,所提出的研究方法的具体性和创新性,为相关领域未来的研究提供了有价值的见解。本研究引入了一种结合 VAE 和 RL 的生成优化模型,在文化创意产品设计领域实现了理论和实践上的进步。实验结果和比较分析清楚地证明了该方法在设计质量、多样性和用户满意度方面的优越性。更重要的是,这项研究为文化创意产业中的 AI 辅助设计提出了一个新的范式。与传统的设计支持系统不同,所提出的方法不仅促进决策,还能生成设计方案。生成模型的集成将设计过程从“选择优化”转变为“解决方案创造”,为未来解决更复杂和多样化的设计挑战奠定了基础。 在应用前景方面,本研究中开发的模型不仅超越了文化和创意产业,还拥有显著的跨领域潜力。例如,其在生成和优化方面的能力可以应用于工业设计、教育内容创作和其他领域,从而扩大了 AI 驱动智能设计的可能性。这种跨领域适应性凸显了模型的通用性,并为未来的研究和开发提供了大量机会。