对话占冰强｜从AI生态发展到AGI终局

添加书签

AIGC开放社区
2024-02-06

播客【科技慢半拍】有幸邀请到AIGCLINK发起人，行行AI合伙人占冰强先生，主持人与他深入探讨了人工智能的发展趋势、技术突破以及AI如何重塑行业应用的未来。从AI多模态到AI工程，最后谈到了他对于AGI的深入理解。访谈中揭示了AI领域即将迎来的激动人心的变革，激发了我们对未来无限可能的想象，也为未来的AI应用和发展方向提供了各种思考方向。以下是访谈的概要内容：

您这次全身入局AI创业，和之前的创业经历有什么不同？

占冰强回顾了自己从2006年开始接触深度学习算法，经历了AI技术从学术到实际应用的转变，特别是自2013年以来图像识别技术的大爆发。他指出，最近几年，大语言模型的兴起标志着人工智能进入一个新时代，这些模型通过预训练机制大大减少了数据准备和训练时间，提高了模型的泛化能力，从而使得AI技术更加通用，覆盖更广泛的场景。他还强调，这一转变使得人工智能技术能够更广泛地应用于解决实际问题，预示着AGI（通用人工智能）时代的到来将深刻改变人们的生活。

十大预测中关于多模态、软硬件结合、具身智能等方面的发展趋势。

占冰强认为多模态在2023年主要是围绕着自然语言展开，但对图像和视频的理解尚未达到爆发期。他预计，随着多模态应用的兴起，结合硬件的大模型将使得智能硬件的构建成本大幅降低，推动了智能硬件和工业应用的发展。特别是在多模态方面，如图像识别和理解的能力得到显著提升，将直接影响到硬件设备的智能化水平。他还提到，AI时代的到来将降低创建大模型和训练数据的门槛，使得80%的大语言模型数据来源于自动生成的内容。

这种变化不仅降低了成本，也加速了智能技术的应用和发展。占明强认为，这种趋势将使得原生的AI公司在初期占据优势，但随着时间的推移，创新性强的硬件公司可能会在这一领域占据主导地位。关于具身智能的一些进展，如通过人工控制机械手臂的动作来训练模型，使机器能够记住特定动作的力度和方式。这种方法可能会在未来形成新的预训练模型，专门针对具身智能的应用。

虽然目前AI对于视频处理能力尚未达到理想状态，但预计在不远的将来，会出现专门处理视频数据流的模型，这将是AI技术发展的一个重要里程碑。他乐观地预测，这些技术的进步将进一步推动智能硬件和具身智能领域的革新，为人类生活带来深刻的影响。

AI未来在工业界和电子消费品行业的应用前景

占冰强认为，虽然具身智能和人形机器人等技术在2024年可能还不会完全成熟，但是与计算机视觉相关的AI时代工业应用，将会与大模型结合，实现成本的大幅降低和应用效率的提升。此外，他还谈到，大模型的进步将深刻影响公司组织架构，特别是在客服、线上销售和编程等方面，大语言模型将替代许多传统工作岗位。

对于消费电子产品领域，尤其是在2024年CES上展示的产品，嘉宾指出，虽然出现了一些创新产品，如与大模型结合的机器人，但他们仍然认为，这些产品并没有显示出足够的成熟度或对现有习惯的根本改变。苹果的产品策略通常代表了消费电子领域的成熟方向，暗示未来的技术突破和消费趋势可能仍然需要等待苹果的引领。

多模态技术的成熟将是一个关键趋势，预计这将使得图像和视频内容的生成变得更加容易，从而促进内容生产的爆炸性增长。大语言模型将在多个领域引发变革，不仅仅限于文本生成，还将扩展到图像、视频以及更广泛的应用场景中。

AI小模型在边缘计算，以及和大模型结合方面的未来发展趋势。

随着边缘计算的发展，预计将会有更多的边缘设备与大模型结合，利用小模型在终端设备上实现高效、低延迟的智能应用。这种结合不仅能够优化资源使用，还能在不同场景中实现更加个性化和本地化的服务。

例如，无人机和机器人等设备可以通过加载训练好的小模型，在缺乏网络连接的情况下独立执行复杂任务。在新时代的模型架构可能是云端存在一个通用的大模型，而终端设备上运行着专门优化的小模型。这些小模型可以定期与云端的大模型交互，进行数据同步和模型更新，从而保持系统的整体智能和适应性。

此外，他还讨论了这种架构实现的可行性和潜在挑战，特别是如何在异构的技术体系下实现大模型和小模型之间的高效配合，同时比较了这种模式与计算机早期发展历史中的服务器-终端模式，强调了未来可能需要开发新的网络协议和技术标准来支持这种复杂的人工智能系统交互。

关于OpenAI GPTs的发展前景以及AI渗透率的问题

尽管GPT商店为开发者提供了创建和分发基于大模型应用的平台，但目前还未能实现广泛的用户吸引和流量涌入。只有当出现“现象级硬件”并与大模型紧密结合时，大模型的普及率和渗透率才会显著提高，预计这种情况将在2025年或2026年出现。

关于大模型的渗透率，尽管国内外的一些大企业和机构已经开始采用大模型技术，但普通用户的接触和使用率仍然较低。嘉宾估计在美国约为10%，而在中国则低至3-5%。关于大模型在未来的发展，关键在于大模型本身的能力，而非应用的表层创新。

大模型时代与工具时代的根本区别在于，大模型的底层能力和性格决定了其能否吸引用户并形成新的生态。特别是，他认为大模型需要能够更好地适应社交和娱乐应用，以吸引更广泛的用户群体。关于编程和开发的未来趋势，未来的编程不再仅仅是解决具体技术问题，而是需要能够创建能够替代特定人类角色或组织功能的智能系统。

随着大模型技术的发展，非专业开发者将能够更容易地创建和部署应用，而这将要求他们具备新的技能和思维方式。另外，如微软、苹果等大公司在大模型时代的策略和挑战，以及他们如何可能适应这个快速变化的技术环境。

开源大模型和闭源大模型的对比以及未来发展趋势

对于开源与闭源大模型的对比，在非通用人工智能（非AGI）时代，开源模型由于数据获取的限制和开源规则的约束，相比闭源模型会有一定的发展劣势，预计开源模型会落后闭源模型半年到一年的时间。尽管如此，占冰强预测开源模型将会达到GPT-4的水平。在进一步讨论中，他提出了对于通用人工智能（AGI）时代的预测，认为在AGI时代，开源模型由于其自我进化的能力，将不再受数据限制的束缚，因此会超越闭源模型。

他强调，开源社区的丰富多样性和创新性将是开源模型在AGI时代获胜的关键因素。关于算力问题，嘉宾表示，尽管目前算力看起来是大模型发展的一个瓶颈，但随着技术的进步，算力将不再成为限制因素。他举例说，随着硬件更新换代的加快和国内外算力资源的增加，算力短缺的问题将逐渐缓解。

关于底层模型的算法，未来的大模型将朝向更加高级的自我进化和自我迭代的方向发展，而不是仅仅依赖于微调现有模型。自我博弈和自我进化作为大模型发展的可能方向，类比于AlphaZero通过自我对弈达到高水平的例子，暗示未来的大模型将能够在没有外部数据介入的情况下，实现快速进化和学习。

在企业端，AI工程领域的最新进展。

在使用大模型进行项目落地时，关键在于理解业务场景和构建与之适配的SOP（标准操作流程），以及如何根据业务需求选择和调整大模型以满足实际应用的需求。他提出，与业务人员共同构建针对特定业务场景的SOP，而不是简单套用现有的业务流程，是实现有效落地的重要步骤。

此外，嘉宾还提到，工程实现的过程中，如何有效地与业务人员沟通，以及如何准确评估和选择大模型的能力和边界，是项目成功的关键因素。由于不同的大模型在不同场景下的表现存在差异，因此没有一套通用的方法论来直接决定哪个模型最适合特定的业务场景。项目团队需要根据具体的业务需求和模型的性能，通过实际测试来确定最合适的模型。

嘉宾指出，尽管这个过程可能较为繁琐，但通过不断的尝试和优化，可以找到最适合项目需求的解决方案。他还讨论了大模型落地过程中的一些实际问题，例如如何处理大模型的不确定性、如何评估工程投入的成本和收益，以及如何在项目实施过程中有效地利用大模型来提升工程效率和业务价值。

在LUI（语言用户界面）在企业应用方面，是否有进展？

当前的LUI应用主要集中在传统的对话机器人形式，即通过语言进行交互的界面。他们讨论了尝试中的新型用户体验，例如将交互界面设计为更结构化的表单形式，以简化用户与大模型的交互过程。嘉宾认为，尽管语言交流相对容易和直接，但在某些场景下，直接的界面操作可能更高效。LUI的发展主要围绕聊天形式和结构化表单两个方向。聊天形式虽然自然，但可能需要大模型具备更强的引导能力来提高交互效率。结构化表单则通过明确的引导和选项简化用户输入，但这也可能限制了交互的自然性和灵活性。

在RAG方面的企业应用，目前的进展如何？

本地化部署是处理企业数据的主要方式，这可以确保数据的安全和隐私。然而，本地化部署意味着需要在本地环境中配置和优化大模型，这可能会增加复杂性和成本。其次，关于向量数据库的召回率问题，大多数解决方案的召回率在70%到80%之间，但实际业务应用通常要求90%以上的召回率。

要达到这样的高召回率，通常需要进行大量的工程工作和优化，包括数据分段、算法嵌入更新、知识图谱整合等，这些工作都需要显著的时间和资源投入。虽然底层的向量数据库和嵌入算法可以对召回率有所贡献，但从工程层面进行优化通常更为经济和有效。

这包括使用工程化的思路来提升召回率，如通过调整参数、结合不同的技术和方法来针对特定的业务场景进行优化。然而，由于缺乏标准化的解决方案，企业需要通过不断试验和调整来找到最佳实践。

C端应用还是B端应用，创业者应该如何选择？

在多模态技术成熟之前，C端应用不会有太大的发展空间，因为大部分用户需求可以直接通过大模型本身解决，导致C端应用缺乏独立的市场空间。然而，嘉宾认为B端应用在当前阶段有更多的发展机会，因为它们能够解决组织层面的问题，提升生产效率，并为社会带来价值。

但是随着多模态技术的出现，将会出现新的硬件结合应用，为C端应用提供新的发展机会。但这些机会需要新的硬件入口和生态系统的配合，才能推动C端应用的繁荣。嘉宾强调，未来的C端应用发展依赖于与硬件的结合，而不是单纯依靠AI技术本身。与互联网时代相比，AI时代初期B端应用比C端应用有更多的发展红利，因为B端应用能够直接为企业和组织带来效率提升和价值创造。

相比之下，C端应用在AI技术早期阶段面临较高的发展门槛和资本要求，使得新兴创业者难以在C端市场取得突破。随着AI技术的进一步发展，特别是多模态技术的应用和硬件的结合，未来可能会出现新的C端应用机会。

但这需要新的市场入口和生态系统支持，同时也需要创业者和开发者有足够的资源和毅力来探索和开拓新的应用场景。

AI中间件层的基础工具和产品，是否有很好的创业机会？

大模型的开发商会逐步完善自己的产品，加入这些中间件的功能，使得独立的中间件解决方案失去市场。因此，他认为当前AI领域的机会主要集中在直接使用大模型的终端应用和解决具体业务问题的解决方案上，而不是提供中间件或工具。现阶段，大多数企业尚未形成专门针对大模型技术的研发团队，而是依赖于外部团队或者传统的技术团队。他强调，关键在于招聘懂得大模型边界和能力的专家，这些人才的成本较高，且市场上供不应求。

AIGCLink社区主要是汇聚和链接了哪些人群和资源？

AIGCLink社区的目标和使命是连接AI领域的各方利益相关者，包括提供技术见解、市场营销支持和资本投资等。特别是对专业内容的重视，同时也意识到对于不同背景的受众，需要提供不同阶段的学习资源。

关于国内和国外AI生态环境的对比

与国外相比，国内的AI生态过于中心化，依赖于几个大厂商，导致了生态不够开放和多元。国外在数字化程度和基础设施建设上更为先进，这为AI技术的应用提供了更好的土壤。相对而言，国外的生态更加分散，为个体开发者提供了更多机会。

另外，中文数据在全球数据中所占比例较小，这限制了国内基于中文数据训练的AI模型的发展潜力。相比之下，国外拥有更丰富的数据资源，从而在AI领域拥有天然的优势。国内企业根据自身情况选择合适的发展策略。对于面向C端的企业，建议考虑出海策略，利用国外更为开放和成熟的生态；而面向B端的企业，由于国内市场的特殊性，可以继续在国内深耕。

对于AGI的理解和展望

AGI能够在特定场景下通过短期训练达到所需的智能水平，而无需外部数据输入，显示出自我进化的能力。同时，AGI作为一个开放式学习系统，能够通过设置目标和约束条件自我优化，类似于人类的学习过程。

另外，人类生成的数据已经接近枯竭，未来AGI的发展将依赖于机器之间的交互和自我学习，而不是简单地依赖人类提供的数据。这种变化可能导致AGI发展出人类难以理解或控制的新形态。占冰强也表达了对AGI发展的担忧，特别是关于其不可预测性和可能超越人类认知的能力。

他们提到，由于AGI的算法本质上是黑箱操作，人类很难完全理解其内部工作机制，这增加了AGI可能走向不受控制的风险。AGI对人类社会的潜在影响，包括其可能带来的生产力革命和对传统工作模式的颠覆。

而且，AGI可能帮助人类突破现有科学的边界，但也可能导致人类对这一新兴智能体失去控制。AGI的出现将是人类和机器智能发展的新纪元，但同时强调了需要审慎对待AGI，确保其发展方向符合人类的长远利益。

希望收听完整访谈节目的朋友，请移步【科技慢半拍】播客节目：