Amuse v3 v3.2までのOptions, Advancedの項目
***メモ。解説ではない。TensorStackさん、作ると言ってた詳細解説と取説はよ。
【Options】
・Scheduler
Text to Image/image inpaint:Upscaler
Image to Image/Paint to Image:Upscaler/ControlNet/Extractor
のチェックボックスが出ることがある
Upscalerはレ点入れて直接使うのもありだし、生成後でも良い。
ControlNet/Extractorを使用する場合はレ点を入れる
・Prompt/Negative Prompt
AmuseのUI右上、歯車Setting→Stable DiffusionタブでPromptの保存可
テスト用PromptやNegatevi Promptは入れておくと楽。
初期の段階でいくつかPromptがあるので試してみるといいかも。
・Enable Live Update
チェックを入れるとAutomationタブが開けない代わりに
Cancel/GenerateがStop/Startに変更され、画像生成待機(のような)状態
Prompt、STEPやGuidanceなど設定変更すると生成スタート。
スライダー類はキーやスクロールで操作可
細かい調整が必要な時の半自動的な使い方
回数使うと稀にAmuseが落ちる時がある、おまじない程度にEmpty。
・Seed
▷=New Seed、🔀=Random Seed
・Resolution
プルダウンで各MODELの推奨サイズ
右のボタンでWidth/Heightのプルダウンに切替
・Step 略
・GuidanceScale 略、CFGと(たぶん)同義
・Memory Mode
基本Auto Detect、右隣ボタンで調整可
緑レ点か青レ点が出てれば気にしない。
黄の感嘆符は「共有メモリ使うから遅くなるぞ」のマーク
赤の感嘆符は「無理スンナやめとけ」のマーク
プルダウンでCustom選択後に調整可
レ点入れてCacheをOFF、VRAM消費の低減ができる
Enable VAE Tilingは低VRAMで高解像度が望める
たぶんStable Diffusion web UIのTiled VAEと同義
予算と相談で最大RAM積めば幸せに、余裕あるならGPU載せ替え。
新規総入れ替えなら現状NVIDIAでAmuseのことは忘れる。
【Advanced】
*付は右下に出る↺マークで初期値に全リセ、注意
<20250807>
ChatGPTやGeminiに聞いても詳細ないよ!と返される
Stable Diffusion WebUIに似たパラメーター群があるそうで
それを模した理解で良いのか悩む。
<20250809>
メモ書きなんで見辛くなってきた、そのうち整理予定
・Optimization
None/Level1~4
最適化。どの部分の最適化か知らん
都合良く解釈すればMODELの推論効率を上げるもの
Geminiは生成高速化、高解像度の画像生成を可能にする、VRAM消費の削減目的
Stable Diffusionには「ToMe」という拡張機能があって同じとの解説。
速度はit/sで比較、Level 4でnoneより15~20%ぐらい向上してた。
使用MODELに左右されるのではないかと推測。
彩度もnone<<<Level 4で強くなるように感じる、気のせいでした。
VRAM消費削減は...削減されて今の状態なのか?...(シビア
1024x1024でVRAM MAX6GBぐらいまでにしてくれん? VRAM MAX8GBでキリよくない? Memory ModeのCustemでcache offにするのが良いのか?
基本:Level 3Level 4をメインで使用中。
・Beta Schedule*
Linear/ScaledLinear/(SquaredCosCapV2)/Sigmoid
ノイズ拡散除去の方法、詳しく調べると頭痛くなるので始めたら本当に頭痛くなった。
Linear=2D, anime、ScaledLinear=繊細表現、って解釈で使用中
(SquaredCosCapV2)はプルダウンをスクロールすると出てくる
プルダウン内表示で「SquaredCosCap\」に見えたがUI広げたらV2だった*_*
Geminiの回答は
「ノイズ除去の過程で、各ステップでどのくらいのノイズを除去するかを決定するスケジュール」 拡散モデルにおけるノイズ除去は
「ノイズ付加前の唯一である正解を当てに行く」のではなく
「ノイズ付加前の無数にある正解候補から一つを適当に選択」すること...らしい
ってことは
「各ステップでどのくらい選択処理するか?」を決定するスケジュール...でいいのか?
Linear=線形、ScaledLinear=均等線形、Sigmoid=S字型曲線までは理解した
SquaredCosCapV2? 平方コサインキャップ?、cos²θ、二乗コサインキャップか!?
それのV2...cos²(θ)⋅v²でいいの?
BetaStart/Endも絡んでくるんだろうなぁ
SquaredCosCapV2
KDPM2シリーズとLCMを利用する場合は問題ないが
LMS系/Euler系/DDPM/DDIMを利用する場合は
TimestepSpacingでLinpaceを選択して生成すると黒ベタimageになった
DDIMの場合、特定のSettingでエラー吐く
KDPM2系とLCMでも使えるが各Schedulerの持ち味が消える感じ
総じて何かもう一工夫しなきゃいけない設定があるような気がする。
基本:ScaledLinear
現段階でテスト時の印象は
Linear:明確
ScaledLinear:バランス
Sigmoid:繊細
SquaredCosCapV2:バランスと繊細(ただしAdvancedで詳細な設定が必要)
***上記2つはクオリティと速度に直結する可能性。
・TimestepSpacing*
拡散過程と非拡散過程が、AI画像生成の前提とするなら
この項目は拡散過程に関する設定なのかもしれない
「ノイズをランダムに決める」と「決めたノイズを足す」
この処理を繰り返してデータにノイズを付加する
これを拡散過程というらしい。
Linspace/Leading/Trailing Linspace:均等に拡散過程を行う
Leading:ノイズの決定が先?
Tralilng:決めたノイズを足す?、ノイズの決定が後?
(ノイズ付加が先か?ノイズ除去が先か? 指数と対数?、予測と結果? ノイズ拡散の間隔指定、均等とか対数とか...頭痛くなるw
基本:Linspace
BetaScheduleのSquaredCosCapV2を使う場合はLeading/Trailing
現段階ではLeadingが多い
・StepOffset
Stepの開始位置を調整する、2D, anime系は2~3にすると良いらしい
基本0、SquaredCosCapV2の場合は-1~-3も使っている
・Prediction*
ノイズの予測形式?、Epsilon(微小)だから
Sample(抽出/見本/雛形)って認識でOK?
VariablePredictionは変数予測でいいはず
AI画像生成カテゴリでPredictionを検索すると
「V-Prediction」なる単語に当たる。VelocityPrediction(速度予測)というそうで
極一部のSDXL MODELに適応していて発色が良くなるそうだ。
Amuseには...あるのかな?それでも使い道はイマイチわからん。
Epsilon/Sample/VariablePredictic
Epsilon(ノイズ予測):ε予測、E-pred
Sample(元画像予測):x0
VariablePredictic(変数予測):Velocityとはまた違う?
基本:Epsilon
現状Sampleは上手く扱えてないので未テスト
image inpaintで処理する時や 画風を大きく変える(特に2D.anime)時にVariablePredicticを使うことがある。
VariablePredicticは色相が弱くなったりグレースケールになりがち
BetaEndを必要以上に上げたり
AlpheTransformをExponential設定の組み合わせで使った。
2D,anime系はそれなりに、Real系では上手く扱えてない。
・AlpheTransform*
α(ノイズ拡散中の信号残存率)の変換
ChatGPTは二か月ほど前にこう答えました。
合ってるかどうか知らん。
検索するとEulerの公式に当たるけどを勉強する気ないぞ?
SchedulerにもEulerって名前付いてるからした方が良いのだろうけど。
Cosineはよく出てくるなぁ...cos²θだとか。
Cosine/Exponential
Cosine:直線的(Linearとは違う?)
Exponential:指数関数的、倍々掛け算のような感じ?
基本:Cosine
Exponentialは変化を求めるテスト時ぐらい他Advancedの設定次第で使う。
・BetaStart*/BetaEnd*
BetaStart:ノイズの最小値:0.0001~0.001
BetaEnd:ノイズの最大値:0.01~0.02
使用MODELや他Advancedの設定によって作画や色相描写に変化がある。
デフォルト設定で問題なし、むしろそれが推奨かと
設定を詰める場合は毎回細かく指定し直す方が良さげ。
デフォルトはstart:0.00085、End:0.012が多い。
・MaximumBeta*
ノイズの最大値制限、特定条件下での抑え込み用
デフォルト0.999
・Decoder TileMode
None/Overlap/Blend/Clip/Blend+Clip
拡散MODELは制約上の問題で分割ブロックで生成と合成をするそうで
その分割ブロックをタイルと呼び、その扱い方や結合方法を制御するのがこのモード。
None:画像一括処理、シンプルだが解像度に制限
Overlap:タイルを重ねて合成、タイルの境界をなめらかに
Blend:重ねる合成ではなく混ぜる合成?...ってまんまの解釈、言葉から推測
Clip:タイルを並べる合成?
Clip+Blend:タイル並べて境界を混ぜる合成ってことか?
デフォルトはClip+Blend、好んで使っているのはOverlap
・Decoder Tile Overlap
TileModeでOverlapを指定しない限り必要ない(らしい)
境界が大きいほど高画質、Overlap=64以上を推奨された
数字上げれば当然重くなって処理に時間がかかる。
(過度に必要ないとは思うが、高画質へのおまじない程度)
実際は128、192、256、384、512の設定を使っている。
1024x1280, 768x1024, 512x758の場合は256
768x1152の場合は192のように、8の倍数を頭の片隅に入れとく。
一通り試してみたメモ。解説として捉えるのはオススメしないし責任持たん。
・GPUメモリ不足の場合は他アプリ閉じてAmuseだけにする
ブラウザ立ち上げっぱなしとかは結構浪費する
RAM不足の場合はempty.exeを使うおまじないも必要。
OS巻き込んで落ちるのもダルいし。
・Optionsの項目はSD/LCM/SDXL向け
StableCascadeやらFLUX.1では設定項目が変わる
・Text to Imageのみのメモ
Image to Image/Paint to Image/Image inpaintを使用する場合
元imageと同じ設定があると良い、ただし修正・改変する場合は少し事情が変わる。
・各MODELの初期設定値の変更
MODELで違いはある。試してないが好みに合わせて改変はできそう。
時間が出来次第やりたい。
・設定を変える必要性は薄そう
カジュアルに遊ぶ程度ならOptionの項目ぐらいで
Advancedの項目は仕上がりにこだわる場合に設定を詰める
好みは千差万別なんで一応用意しとくよ!って感じなのかもしれない。
・メモ、落としどころのSetting
キリがない...時間溶ける...2025/08時点での落としどころ
<SquaredCosCapV2用>
Step:64, GuidanceScale:6.40, Optimization:Level 4,
Beta Schedule:SquaredCosCapV2, TimestepSpacing:Linspace
StepOffset:-2~2, Prediction:Epsilon, AlphaTransform:Cosine
BetaStart:0.00085~0.0048, BetaEnd:0.0256, Overlap+256
***2D/anime系はLinspaceをなるべく使用しない(若干ソロtagの効き薄)
ここからスタート、今後も遊んで試して色々調べて書き足す。
TensorStackさん、取説作ると言ったよね?ホントマジお願い。
【参考】
拡散モデルとは
https://www.ibm.com/jp-ja/think/topics/diffusion-models
拡散モデルの説明における『ノイズ除去』に対する誤解について
https://zenn.dev/loiloi/articles/215a288c383a54
京都大学人工知能研究会KaiRA 生成Deap Learning 第2版 -拡散モデル 前半
https://www.docswell.com/s/kyoto-kaira/ZXEJ77-2025-05-29-211301
<20250806:公開開始>