城市日记

多语言视觉文字生成与编辑模型AnyText

01-09
技术,科技
233 次阅读
0 评论

AnyText支持中文、日文、韩文、英语等多种语言，可帮助电商、广告平面设计、电影制作、动画设计师、插画师、网页设计、UI设计师、数字营销等领域的人员，提供高精准、自定义的文生图像服务。

github地址：github.com/suaifu/gpfAnyText

体验地址：

摩搭社区 modelscope.cn/studios/damo/studio_anytext/summary
HuggingFace huggingface.co/spaces/modelscope/AnyText

效果：

MetaGPT: 智能体框架

01-04
技术,科技
229 次阅读
0 评论

具体介绍网址：docs.deepwisdom.ai/zhcn

MetaGPT输入一句话的老板需求，输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等
MetaGPT内部包括产品经理 / 架构师 / 项目经理 / 工程师，它提供了一个软件公司的全过程与精心调配的SOP

MetaGPT全方位的帮你完成任务，可以作为教程文案助手，摄影师，软件公司，辩论，狼人杀，虚拟小镇

使用:

安装
pip install metagpt
完整的安装方法可在安装部分找到。

配置


import os
os.environ[&quot;OPENAI_API_KEY&quot;] = &quot;sk-...&quot;
os.environ[&quot;OPENAI_API_MODEL&quot;] = &quot;gpt-4&quot;

完整配置不同LLM API（比如OpenAI、Azure、Anthropic等）的方法可在配置部分找到。

开源人工智能书籍的现状指南 - 2023年

在当前快节奏的开源创新混乱中，作为一名数据科学家/机器学习工程师/开发人员，在有早9晚5工作的情况下，很难跟踪所有的创新。过去一年该领域取得了巨大进展。

通过这个指南来解决你的FOMO问题，涵盖了开源AI领域中最重要的各个类别，从模型评估到部署。它包括一个词汇表，供您快速查阅新框架和工具的定义。

每个部分顶部都包含一个简短概述（TL;DR）。我们概述了每个主题的优缺点和总体背景。然后我们会更深入地探讨。示例包括数据模型训练和部署实现方式。

阅读地址：book.premai.io/state-of-open-source-ai/
github地址：github.com//premAI-io/state-of-open-source-ai

Amphion：实现AI转语音、声音和歌唱功能。

2023-12-26
技术,科技
254 次阅读
0 评论

Amphion：是一个开源工具包，可实现语音、声音和歌唱功能，将一首歌的声音换成另一个歌手的声音。还支持声音转换、歌声合成、文本到音频、文本到音乐等功能。

github地址:github.com/suaifu/gpfuAmphion

体验地址：huggingface.co/amphion

主要功能

1、文本到语音：将文本转换为口语化的语音。

应用：用于制作语音助手、自动语音回复系统、为视障人士阅读文本等。

2、歌声合成：创造虚拟歌手的声音，可以从文本或旋律生成明星的歌声。

应用：用于音乐制作、虚拟偶像创作等。

3、声音转换：改变一个人的声音，使其听起来像另一个人。

应用：用于娱乐、声音设计、匿名通信等。

4、歌声转换：将一首歌的演唱者的声音转换成另一个演唱者的声音。

应用：用于音乐制作、个性化音乐体验等。

5、文本到音频：不仅将文本转换为语音，还可以转换成其他类型的音频，如音效或音乐片段。

应用：用于创造音效、音乐片段、音频故事等。

6、文本到音乐：从文本描述中生成音乐。

应用：用于自动音乐创作、根据情感或故事情节创作音乐等。

模型支持：该工具包支持多种模型和架构，如FastSpeech2、VITS、Vall-E、NaturalSpeech2等，用于不同的音频生成任务。
声码器支持：Amphion 支持多种神经声码器，包括基于GAN的声码器（如MelGAN、HiFi-GAN）、基于流的声码器（如WaveGlow）、基于扩散的声码器（如Diffwave）等。
数据集支持：Amphion 统一了开源数据集的数据预处理，支持多种数据集，如AudioCaps、LibriTTS、LJSpeech等。

Attention Is All You Need 论文

2023-12-25
技术,科技
204 次阅读
0 评论

点击论文下载

Attention Is All You Need (Transformer) 是当今深度学习初学者必读的一篇论文。

Attention Is All You Need
注意力是你所需要的一切

摘要
The dominant sequence transduction models are based on complex recurrent or convolutional neural networks that include an encoder and a decoder. The best performing models also connect the encoder and decoder through an attention mechanism. We propose a new simple network architecture, the Transformer, based solely on attention mechanisms, dispensing with recurrence and convolutions entirely. Experiments on two machine translation tasks show these models to be superior in quality while being more parallelizable and requiring significantly less time to train. Our model achieves 28.4 BLEU on the WMT 2014 Englishto-German translation task, improving over the existing best results, including ensembles, by over 2 BLEU. On the WMT 2014 English-to-French translation task, our model establishes a new single-model state-of-the-art BLEU score of 41.0 after training for 3.5 days on eight GPUs, a small fraction of the training costs of the best models from the literature.
　　注意力是你所需要的一切主导的序列转导模型是基于复杂的递归或卷积神经网络，包括一个编码器和一个解码器。性能最好的模型还通过注意机制将编码器和解码器连接起来。我们提出了一个新的简单的网络结构–Transformer，它只基于注意力机制，完全不需要递归和卷积。在两个机器翻译任务上的实验表明，这些模型在质量上更胜一筹，同时也更容易并行化，需要的训练时间也大大减少。我们的模型在WMT 2014英德翻译任务中达到了28.4 BLEU，比现有的最佳结果（包括合集）提高了2 BLEU以上。在WMT 2014英法翻译任务中，我们的模型在8个GPU上训练了3.5天后，建立了新的单模型最先进的BLEU得分，即41.0分，这只是文献中最佳模型的训练成本的一小部分。

继续阅读

页面

分类