天機では以下のことを学べます 🍉
-
プロンプトを構築して大規模モデルアプリケーションと対話する
-
AIゲーム(哄哄シミュレーターのような)アプリケーションを作成する
-
metagptに基づいてインテリジェントエージェントアプリケーションを構築する(まもなくリファクタリング予定)
-
ゼロから知識ベース対話アプリケーションを構築する(まもなくリファクタリング予定)
-
ゼロからデータを作成し、自分専用の大規模言語モデルをファインチューニングする
全てのコンテンツを学習すると、大規模言語モデルの入門レベルのフルスタックアプリケーション開発能力を獲得できます。🕶️
SocialAI(来事儿AI)は中国に設立された非営利組織で、天機シリーズの取り組みを完全にオープンソース化しています。現在のオープンソースシステムの技術路線にはプロンプト、AIゲーム、エージェント、知識ベース、モデルトレーニングが含まれています。具体的な内容については、ドキュメントと対応するリポジトリをご覧ください。
整理された人間関係や世事のデータに基づき、人間関係や世事の大規模モデルシステム「天機」には、一般的な対人関係における7つの主要分野が含まれています(具体的な詳細はシーン分類のシーン詳細を参照してください)。大まかに以下のように分類できます:
1.乾杯のマナーと文化 Etiquette
乾杯を恐れず、宴席で一気に対応
2.接待のマナーと文化 Hospitality
友好的にあなたの友好を示す
3.贈り物のマナーと文化 Gifting
この贈り物は贈り物に非ず、心に直接響く
4.祝福を送る Wishes
あらゆる祝福の言葉を網羅
5.適切な会話の仕方 Communication
情緒的知性の低い人の救世主と言われている
6."気まずい"場面の解消 Awkwardness
気にせず、自分を取り戻す
7.対立&衝突への対応 Conflict
「屈することも伸びることもできる」
これらの分野を組み合わせて、天機が関与する技術路線は4つあります:
- 純粋なプロンプト(AIゲームを含む):内蔵されたシステムプロンプトに基づき、大規模モデル自体の能力で対話する。
- エージェント(MetaGPTなど):エージェントアーキテクチャを利用して、より豊富で、よりカスタマイズされた詳細な回答を得る。
- 知識ベース:人間関係や世事の法則を直接検索する(例えば、食卓でどのようにお酒を飲むかなど)。
- モデルトレーニング:異なる優れたモデルをベースに、大量のデータを蓄積した上でLoraファインチューニングまたは全量ファインチューニングを行う。
tianjiディレクトリ下で4つの路線に対応するソースコードを見つけることができます。天機
のプロジェクト構造、データ管理、技術路線を参考にして自分の垂直領域AIアプリケーションを再現したい場合は、フォークするか直接参照してください。私たちはプロジェクトの立ち上げ、データの方向性探索、データ構築と管理、AIアプリケーションのゼロからの制作、領域(例えば人間関係や世事)と技術路線の深い結合
を含む全過程をオープンソース化する予定です。私たちは、AIネイティブアプリケーションが生活の中でさらに加速して推進されることを期待しています。
-
[2024.07.14] 祝福モジュールの新バージョンを更新しました。より多くのスタイル切り替えをサポートし、データはhuggingfaceにオープンソース化されています。
-
[2024.05.04] 🚀 「気まずい場面の解消」を例にしたファインチューニングデータの取得・作成チュートリアルを公開しました。対応するデータはhuggingfaceにオープンソース化されています。
-
[2024.05.02] 🚀 人間関係や世事の大規模モデル - 祝福送信に関するデータ収集からファインチューニングまでの全プロセス再現可能ドキュメントと対応するデータ、設定、補助スクリプトを公開しました(しばらく鳩山していましたが戻ってきました。主要なメンテナーが継続的に残業で忙しく、休日になってようやく楽しくオープンソースできました)。
-
[2024.02.01] 🧑🚀 プロンプト、エージェントアプリケーション、知識ベース(TODO)、モデルファインチューニング(InternLM2ベース)の初期バージョンの体験アドレスを公開し、リポジトリをオープンにしました。
- 最小初期バージョンのリリース(プロンプト、AIゲーム、エージェント、知識ベース、モデルファインチューニングを含む)
- 人間関係や世事の大規模モデル - 祝福送信のモデルファインチューニングデータ収集からファインチューニングまでのプロセスの再現可能ドキュメントの完成
- 人間関係や世事のコーパス - 祝福送信をhuggingfaceにオープンソース化
- より良いデータ作成ツールとクリーニングソリューションの反復、データクリーニングスクリプトのオープンソース化
- 知識ベース部分の反復完了
- エージェント部分のドキュメント完成
- 知識ベースコーパス取得の詳細をhuggingfaceに公開
- ドキュメントの補完(このプロジェクトを参考に自分のアプリケーションプロンプト、エージェント、知識ベース、ファインチューニングアプリケーションを構築する方法)
- 多次元データの整理、比較的完全な人間関係や世事のコーパスのオープンソース化
- 人間関係や世事のコーパス - 2万件の収集&オープンソース化、トレーニングの結果と全プロセスの提供
このプロジェクトでは、以下のコマンドを実行するだけでプロジェクトの完全なインストールが可能です。
pip install -r requirements.txt
pip install .
プロジェクトが正常に動作するようにするため、プロジェクト内に新しく.env
ファイルを作成し、その中にAPIキーを設定してください。以下の例を参考に対応するキーを書き込むことで、正常に実行して呼び出すことができます。現在はデフォルトでzhipuaiを使用しているため、ZHIPUAI_API_KEY
のみを書き込めば使用できます。
Hugging Faceからモデルをダウンロードする際に速度が極端に遅いまたはダウンロードできない問題が発生した場合は、.envファイルでHF_ENDPOINT
の値をhttps://hf-mirror.com
に設定してください。一部のHugging Faceリポジトリ(例えばJina Ai)にはアクセス権限が必要な場合があることに注意してください。そのため、Hugging Faceアカウントを登録し、.envファイルにHF_TOKEN
を追加してください。ここでトークンを見つけて取得できます。
OPENAI_API_KEY=
OPENAI_API_BASE=
ZHIPUAI_API_KEY=
OPENAI_API_MODEL=
HF_HOME='./cache/'
HF_ENDPOINT = 'https://hf-mirror.com'
HF_TOKEN=
assets/:静的画像ファイル
run/: 各種デモ用フロントエンド
test/:各種機能のテストファイル(コアモジュールおよびllm実行の単体テストを含む)
tianji/:ソースコードディレクトリ(主要なロジックとアルゴリズムの実装を含む)
tools/:データ収集、整理、コーパスのクリーニングを支援するツール
TODO、全ドキュメントをカバーする予定
以下にプロンプトとエージェントの関連アプリケーション方法を示します。実行する前に.env
ファイルを新規作成していることを確認してください:
# プロンプトwebuiフロントエンドの実行
python3 run/tianji_prompt_webui.py
# エージェントフロントエンドの実行
streamlit run run/metagpt_webui.py
現在の祝福モジュールは3つのモードをサポートしています:
- 通常のスタイル:直接祝福対象を書き、一般的な会話のパターンに従います。
- 小紅書スタイル:祝福対象を指定した後に「小紅書スタイル」を追加すると発動します。絵文字と可愛らしい会話スタイルが含まれます
- 厳粛なスタイル、祝福の対象を指定した後に追加すると、厳粛なスタイルが発動されます。公文書スタイル。
以下はテスラ創業者イーロン・マスクがOpenAI創業者サム・アルトマンに乾杯を提案する会話の例です(内蔵プロンプトに基づいて生成):
イーロン・マスク: サム、君のOpenAIはCloseAIと呼んだ方がいいんじゃないか?
サム・アルトマン: 自分のGrokの面倒を見てからにしろよ。罰として3杯飲め!
イーロン・マスク: 何を言ってるんだ、この白酒を全部飲めということか?
サム・アルトマン: ハハ、イーロン、君は星々と海を目指す男じゃないか。白酒1本なんて大したことないだろう?SpaceXのパーティーでロケット燃料まで飲んだって聞いたぞ!さあ、この杯は私が飲み干す。君は好きなようにしていいが、世界一の富豪の品格は失わないでくれよ!
イーロン・マスク: 挑発してるのか、サム兄貴!じゃあ遠慮なく頂くぞ。俺が全部飲むから、君は半分でいい。しかし話を戻すと、OpenAIの成果は吹かしだけじゃないからな。よく見ておけよ、本当に「CloseAI」にならないようにな。
サム・アルトマン: おい、このCEOの帽子はいつでも君に被せる準備ができてるぞ、マスク兄貴。でも今夜はこれらのことを忘れよう。さあ、我々の友情に乾杯!私が飲み干すから、君は好きなようにしていいが、明日も世界を変え続けなきゃいけないことを忘れるなよ!
イーロン・マスク: よし、その「世界を変える」という言葉に免じて、この杯を飲み干すぞ!でも簡単に許すと思うなよ。次は俺のテスラの充電スタンドを持ってくるから、どう対応するか楽しみだぞ!
サム・アルトマン: ハハ、その日を楽しみにしてるよ!でも今は、まずは今夜を楽しもう。さあ、最後の一杯だ。私が飲み干すから、君は好きなようにしていい。楽しく飲んでくれ。でも忘れるなよ、OpenAIのAI達はまだ俺たちが戻ってきて訓練を続けるのを待ってるんだからな!
TODO
ここにこのプロジェクトの現存する問題(解決歓迎)や、将来のロードマップで完成すべき項目が記録されています。現在まだ書く時間がありません。もし時間があって一緒に参加したい方は、issueを立てるか、直接メールでご連絡ください: [email protected]
優れたCI設備のおかげで、PRの例を参考にするだけで、すぐに自分の最初のプロンプトPRを提出できます!
PRを提出すると、新しいプロンプトは自動的に tianji/prompt
下のjsonファイルにマージされ、ワンクリックで呼び出すことができます。何を書けばいいかわからない場合は、シーン分類 の様々なシーンの詳細を参考に、異なる人間関係や世間一般の分野のプロンプトを書いてみてください。
このプロジェクトの目的は、第一に「AIに核心技術を学ばせる」こと、第二により多くの人々(分野/業界)が自分自身のAIシステムを構築し、AIの各分野への浸透を加速させることです。以下の方法でこのプロジェクトを学ぶことができます:
このプロジェクトを参考に、新しい垂直分野のアプリケーションを作成できます:
- 賃貸アシスタント(エージェント)
- 子育てアシスタント(データ収集と知識ベース)
- 生活ガイド(データ収集と知識ベース) ......
GitHubアカウントを持っていない貢献者もいます。全ての貢献者に感謝します! 皆さんの参加も歓迎します!
以下の全ての方々にこのプロジェクトへのご協力に感謝いたします:
- 全ての貢献者
- 強力な智谱AIのトークンサポート!(ファインチューニングを除き、現在のベースモデルはすべて智谱AIに基づいています)
- 上海人工知能実験室 InternLM(書生·浦語) モデル、およびA100 GPUリソースの提供!
- InternLM(書生·浦語) シリーズオープンソースチュートリアル(現在最高のLLM実践フルスタックチュートリアルの1つ)
- Datawhale オープンソース学習コミュニティ
- 奇想星球