直案件
最終更新日:2025/07/31
【Python/GoogleCloudPlatform】AIベンチャーにおけるSREの業務委託案件・フリーランス求人
〜800,000円/月
業務委託
案件基本情報
| 働き方 | フルリモート / 週4日〜5日 |
|---|---|
| 業務形態 | 業務委託(準委任) |
| 職種・ポジション | SRE |
| 開発環境 | Python |
| クラウド | GoogleCloudPlatform |
業務内容
【想定業務内容】
ユーザーが安心して利用できる会話プラットフォームを支えるインフラには、低遅延・高可用性・大規模同時接続・高セキュリティを担保するための設計・構築・運用が求められます。
Site Reliability Engineer (SRE) は、クラウド環境上でのサービス設計から構築・運用、自動化ツールを活用したインフラ構築・管理、継続的インテグレーション/デリバリー(CI/CD)パイプラインの整備、監視・可観測性プラットフォームの導入と運用支援、オンコール体制の運用とインシデント対応、セキュリティ制御の組み込みなど、幅広い領域を担っていただきます。
大規模ユーザー基盤でのGPUワークロードの運用、コンテナオーケストレーション基盤でのアプリケーション運用経験をお持ちの方を歓迎します。
主な担当業務
信頼性とパフォーマンスエンジニアリング:Google Cloud Platform 上で高可用性かつ低レイテンシのサービスを設計・構築・運用し、定義された SLO および SLA を満たすことを保証する。
CI/CD と DevOps の推進:Cloud Build や GitHub Actions などを活用したエンドツーエンドの CI/CD パイプラインを管理し、自動テスト、カナリアリリース、ブルーグリーンデプロイメント、Terraform によるインフラストラクチャ・アズ・コードを含む DevOps のベストプラクティスを推進する。
可観測性とインシデント対応:Stackdriver、Prometheus、Grafana を活用して包括的なモニタリング、ログ収集、トレーシングを実装する。オンコール対応をリードし、責任追及のないポストモーテムを実施し、インシデント対応プロセスの継続的改善を推進する。
監視ツールの導入と運用サポート:システムの可視性とアラート精度を高めるために、Datadog などの監視プラットフォームの導入、設定、継続的な運用サポートを推進する。
キャパシティプランニングとコスト最適化:成長予測、キャパシティ分析を行い、オートスケーリング、ロードバランシング、キャッシングを活用してコスト効率の高いスケーラビリティを実現するためのアーキテクチャ調整を行う。
セキュリティとコンプライアンス:パイプラインおよび実行環境にセキュリティ制御を組み込む。
クロスファンクショナルな連携:信頼性目標の設定、アーキテクチャ設計への影響、デリバリーの加速のために、プロダクト、リサーチ、エンジニアリングチームと協業する。
ユーザーが安心して利用できる会話プラットフォームを支えるインフラには、低遅延・高可用性・大規模同時接続・高セキュリティを担保するための設計・構築・運用が求められます。
Site Reliability Engineer (SRE) は、クラウド環境上でのサービス設計から構築・運用、自動化ツールを活用したインフラ構築・管理、継続的インテグレーション/デリバリー(CI/CD)パイプラインの整備、監視・可観測性プラットフォームの導入と運用支援、オンコール体制の運用とインシデント対応、セキュリティ制御の組み込みなど、幅広い領域を担っていただきます。
大規模ユーザー基盤でのGPUワークロードの運用、コンテナオーケストレーション基盤でのアプリケーション運用経験をお持ちの方を歓迎します。
主な担当業務
信頼性とパフォーマンスエンジニアリング:Google Cloud Platform 上で高可用性かつ低レイテンシのサービスを設計・構築・運用し、定義された SLO および SLA を満たすことを保証する。
CI/CD と DevOps の推進:Cloud Build や GitHub Actions などを活用したエンドツーエンドの CI/CD パイプラインを管理し、自動テスト、カナリアリリース、ブルーグリーンデプロイメント、Terraform によるインフラストラクチャ・アズ・コードを含む DevOps のベストプラクティスを推進する。
可観測性とインシデント対応:Stackdriver、Prometheus、Grafana を活用して包括的なモニタリング、ログ収集、トレーシングを実装する。オンコール対応をリードし、責任追及のないポストモーテムを実施し、インシデント対応プロセスの継続的改善を推進する。
監視ツールの導入と運用サポート:システムの可視性とアラート精度を高めるために、Datadog などの監視プラットフォームの導入、設定、継続的な運用サポートを推進する。
キャパシティプランニングとコスト最適化:成長予測、キャパシティ分析を行い、オートスケーリング、ロードバランシング、キャッシングを活用してコスト効率の高いスケーラビリティを実現するためのアーキテクチャ調整を行う。
セキュリティとコンプライアンス:パイプラインおよび実行環境にセキュリティ制御を組み込む。
クロスファンクショナルな連携:信頼性目標の設定、アーキテクチャ設計への影響、デリバリーの加速のために、プロダクト、リサーチ、エンジニアリングチームと協業する。
求めるスキル
必須
・
歓迎
・
業界・ビジネスモデル
| 業界 | プラットフォーム |
|---|
エージェントより
マルチモーダル対話システム、自然言語処理、第二言語習得、学習科学、デジタルヒューマン、 量子コンピューティングからメディアアートまで、多様なバックグラウンドを持つメンバーで構成されている、多国籍なチームです。 スキルアップをしながら中長期的に参画されたい方におすすめです!