-
Civitai でカスみたいな画像に数百のリアクションが付いてる異常さもさることながら、画像としての質とか関係なく、LoRA を使ってない画像には全くリアクションがなくて、LoRA を使ってる画像には適当に反応するっていう、このサイトのユーザの傾向がよくわからないんですよね。
思うんですが、このサイトって大半がボットじゃないの? 本当の生身の人間のアクティブユーザなんて数万人くらいしかいないと思いますね。しかも、その多くが他のサービスから LoRA や画像をコピーしてるバイトとかでしょう。なんだかアホらしくなってきます。
まぁそれでも、LoRA や Checkpoint をつくって、せっせと公開してくれている方々は確かにいるわけですから、ありがたく使わせてもらっていますし、使ったなりのリアクションとして、こっちも LoRA を上げたり画像を上げたりはしていきますが、まぁそのうちネタ切れになるのは避けられませんよね。
これはローカル・ユーザとしての見方ですが、モデルがどんどんでかくなり、それに合わせて何度も LoRA を作り直さないといけない。なのに、パソコンなりグラフィックカードの値段はどんどん上がっていくし、とりわけ日本の場合は可処分所得が全く上がらない(上がってるのは、NHK とかが眺めてる一部の会社だけです)。なので、VRAM を24GBとか32GBとか使うようなモデルがどれほど綺麗になったり構図が安定しようと、おいそれとフルサイズのモデルを動かせるパソコンなんて買えません。いわんや、動画なんて数秒分でも数時間の処理がかかるわけで、問題外でしょう。
なので、どれだけ高性能なモデルが出てきても SDXL (Illustrious) がいまだに主流なのは当然のことです。そして、恐らくこれがカジュアルなローカル勢としては限界に近いと思います。あとは、トレードオフを承知で低品質だけど軽いモデルに移行するか、頑張ってフルスケールのモデルを導入するかですが、どっちにしても得るものは少ないと思います。前者は品質という点で。後者は生産性という点で。
-
SDXL の LoRA 作成で懸案だった、「インペイントによる矩形の残像」という課題は、いちおう解決したようです。また、写実的な対象の LoRA についても、Epochs を 20 に増やして品質を上げてみたところ、なかなか良い結果となりました。

general, 1girl, solo, alone, close-up, face, dutch angle BREAK
(sdxl-hayama-reiko, brown hair, long hair, brown eyes, medium breasts)
(standing, smile) BREAK (white theme, white background, white floor, simple background:1.5)
masterpiece, best quality, real person, detailed face, very aesthetic, high resolution, ultra-detailed, absurdres, photorealistic, photorealistic details, ethereal, studio photo, highly detailed, photorealism, hyperdetailed, DSLR, HDR, 32K, 16K. photograph taken by Jovana Rikalo with Nikon D90, Nikon AF-S 24-70mm f/2.8E ED VR, movie promotional poster, studio quality, UHD
Steps: 5, Sampler: LCM, Schedule type: Karras, CFG scale: 1, Seed: 644674457, Size: 1088×1536, Model hash: 96282371a1, Model: novaAsianXL_illustriousV70, RNG: CPU, ADetailer model: face_yolov8n.pt, ADetailer confidence: 0.3, ADetailer method to decide top k masks: Area, ADetailer mask only top k: 1, ADetailer dilate erode: 4, ADetailer mask blur: 4, ADetailer denoising strength: 0.3, ADetailer inpaint only masked: True, ADetailer inpaint padding: 32, ADetailer version: 25.3.0, Lora hashes: “SDXL_Hayama_Reiko_v2: 35bc3de1171d, dmd2_sdxl_4step_lora: a374289e9446”, Version: neo, Module 1: sdxl_vae敢えてメタ・データも一緒に掲載しておきます。誰なのかは、まぁ AV では伝説的な作品の人ですから、知ってる方が大半でしょうね。これは元の教師画像が全て SD 1.5 で作った生成画像なので、前にも説明したように、敢えて余分な特徴量を残さない画像で SDXL のトレーニングに使うという方針が成功した一例かと思います。
ただし、これが万能かと言えば、そうでもありません。同じ程度に厳選して良い教師画像を使ってトレーニングしたはずの石*莉奈さんは、これまでに5回ほど LoRA を作っていますが、どれも再現度が低い結果となっています。マスピ顔と離れすぎていて修正が難しいのか、角度によって顔の特徴が変わりすぎて本人の顔の特徴量が安定しないのか、理由はわかりません。もちろん LoRA のウェイトを上げると少しは似てきますが、やはり教師画像の他の特徴に引っ張られて画質が低下します。
-

写実的なモデルで残った課題は、このように ADetailer が顔の部分をインペイントで描き直しているため、矩形の範囲で周囲との差ができてしまうことです。これではアイコラと変わりません。興ざめです。
とはいえ、LoRA で学習したとおりの顔へ似せるためには、ADetailer の適用はマストだと言えます。どうして ADetailer がないと LoRA の強度を上げても全く似てくれないのかは、私の LoRA の作り方にも問題はあるのでしょうが、これは ttAnimerge (SD 1.5) で作っていた頃からの経験則なんです。
-
DaiGo 「速読の嘘」
https://www.youtube.com/watch?v=IXMW9ek3Arcいやぁ、X を見てると、いまだに「速読術」とか言って本を売り出したりセミナーを開いたりしてる人がいるんだよね。気の毒に、頭の弱い人に限って、やっぱり自分が馬鹿だという自覚があるからなのか、手軽に賢くなれるかのような速読というデタラメに魅力を感じてしまうのでしょうね。
まず、明白で基本的な事実から言います。
「速読術」と称して本を書いたりセミナーをやってる人の学歴と業績を見てください。
東大の教授はいますか? いや東大教授でなくても、博士号をもってる? あるいは企業の経営者として出世したり、あるいは弁護士とか、知識の量だけで決まるわけではないにしても、速読によって膨大な知識があれば有利な職業などについている人がいるでしょうか。
いないですよね。みんな「速読術」を解説してるだけの、ただの人です。そんなに速読で大量の知識があるなら、それだけで大学教授や弁護士になれるわけではないとしても、そういうことが圧倒的に有利な職業についたり、圧倒的な業績を上げているはずです。でも、そんな人はいないのです。
あるいは、X には「10億円を稼いだ」とか言ってる人もいます。でも、株とか為替とか FX って、実は情報や知識をいくら持っていても、それだけでは儲けられません。得た情報の分析力だとか、あるいは最低でも数理経済学で修士論文が書けるていどの数学だとか、そういった素養がなくてはいけません。場合によっては、ふつうなら手に入らないような情報をもらう人脈なんかもあるでしょう。そういうことは、いくら本を速く読めるようになっても、どうしようもありません。
ていうか、よくそういうことを言う人がいますけど、納税の証明書を出してからにしてもらいたいですよね。10億円ってw 投資詐欺とかねずみ講と言ってることが同じじゃないですか。
-
【番外】Stable Diffusion は、なぜ古いバージョンである1.5が最強なのか?【ブログ】
https://note.com/catap_art3d/n/nc35e5d15112aこの記事は、基本的に正しいと思います。私も、写実的なキャラクター(遠回しな言い方ですが、要するにアイドルや AV 女優さんのことですよ、ええ)の LoRA を作るときは、わざと SD 1.5 で作って、AI 画像として優れた画像を作ってから、それを学習素材にして SDXL の LoRA をトレーニングしてます。このところ連続して公開していたアニメのキャラだと、いきなり SDXL でやってますが、写実的なキャラの場合、画像検索で集めた写真をベースにトレーニングしても、良質な画像を出せる LoRA はできないんですよね。色々とパラメータは調整しましたが、どうも似てない。ウェイトを 1.0 にしようと、あるいはトリガーのウェイトを上げようと、ぜんぜん似てない画像ばかり出てくるんです。かといって、特徴量をたくさんもつ LoRA にしようとして network dimension を32とか64とかにして、何百メガバイトの LoRA を作っても、大して効果はありません。
恐らくは、この記事で書かれていることが原因だと思います。特徴量の次元が少ないと、ベースモデルの女の子がもつ特徴量を LoRA で修正しやすいということなのでしょうね。SDXL 以降では、次元の数が多すぎて、LoRA で学習してもベースモデルの女の子がもつ特徴量を全て上書きできなくて、ウェイトを上げてもベースモデルの女の子の特徴量に引っ張られたままになってしまう。これでは、たくさんの特徴量で LoRA の値を修正しなくてはならず、極端なことを言えば、ベースモデルがもつ特徴量の大半を修正しなくてはいけなくなり、ベースモデルを作るのと同じくらいのコストがかかってしまうことになります。LoRA だけで数ギガバイトになるとか、もうそんなのはベースモデルを作った方がいいですし、現に好きな女の子が無条件で出るようにベースモデルそのものを作ってる人は、それが分かってるんでしょう。
それから、私が今年に入って使い始めた Forge Neo だと、Stable Diffusion の 2.x 系統と 3.x 系統はサポートから削除されていますが、1.x 系統は動きます。3.x 系統を外しても 1.5 系統は残しているわけですから、一つには多くのローカル・ユーザが 1.x 系統を動かすスペックのマシンしか持っていないという理由もあるでしょうが、他にも 1.x 系統のモデルには独特な用途があって、3.x 系統が出ようと無効にはなっていないということなのでしょう。
-
ブログ記事だけでなく、生成 AI に質問しても、サンプリング・ステップの数値を増やせば増やすほど詳細で美しい画像が作れるかのようなことを言う人(や AI)がいるわけです。でも、それは或るていどまでは正しくても、一定の限度を超えたら処理の所要時間が増えるだけで殆ど意味がありません。
たとえば、いま Z-Image Turbo での画像生成を色々と試しているのですが、AI に質問するとステップ数を8にしろと提案してきます。しかし、ZIT のようなファイン・チューニングしたモデルの場合はステップの数値をいたずらに増やしても意味がないのです。






このように、だいたいステップ10くらいを過ぎると殆ど品質に差はなくなります。というか、判別ができなくなります。
-
Claude Code や Cursor の話を熱心に X で書いてる人物に限って、聞いたこともない未熟な会社の、エンジニアかどうかすら分からないくらい実績のないカスのような方々であるのは、もうファイナル・アンサーじゃないんでしょうかね。大学院も出てないアーリー・アダプター風情がトレンドを語ってんじゃねーよって気がするんだけど(笑)
-

まったく、画像生成 AI を使い始めてから2年半くらいになりますが、凄い生産性です。もちろん質の善し悪しはありますから、成果が必ずしも客観的に言って良いとは限りません。でも、私にはこういうイラストは描けないのですから、ゼロ(全く描けない)から100(プロの仕事)とまでは言えなくても、上の画像は同人誌で奇っ怪なテイストのイラストを描いている人々の大半を駆逐してしまうでしょう。
なんと言っても、たとえばこのミーサ・グランドウッドさん(『モーレツ宇宙海賊』)ですが、つい数時間前に作ろうと思い立って、YouTube の動画を幾つかダウンロードしたり、設定画を画像検索でダウンロードしてから、動画は Premiere Pro から50枚くらいを切り出して、正方形にトリミングしてから1024 x 1024 いアップスケールした後に、LoRA を2時間ほどトレーニングして完成です。だいたい、「作ろう」と決めてから、Civitai.com へ LoRA を公開するまでの所要時間は3時間ていどでしょう。自分で絵の勉強をして、パソコンでイラストを描くなんてことを、それこそ何年も練習する必要がないのですから、これは画期的と言えます。
もちろん、だからといってトレーニングのソースとなるプロの作品が無くなっては困りますし、エロ漫画の方が圧倒的に優れているところもあります。漫画だと、実際の本番シーンの絵なんで数枚しかありませんが、そこまでのストーリー構成がうまいからこそ、エモいわけですね。
-
たまに画像の生成や LoRA の学習について、Gemini に質問することがあります。でも、たいていは何の根拠もないことを答えることが多いので、あんまりは信用はしていません。
たとえば、人物を写実的に描くよう学習した LoRA の特徴を邪魔しないベースモデルを教えてくれと質問すると、イラストを生成するベースモデルがよいと回答します。なんでも、写実的なキャラクターで学習していないため、逆に写実的なキャラクターの LoRA に余計な影響を与えないからだというわけです。なので、Gemini のお勧めは Blue Pencil XL とか HimawariMix-XL のような、アニメのイラストを生成するようなベースモデルなんだそうな。
・・・これ、絶対に嘘だよね。
ていうか、実際にやってみれば分かりますが、プロンプトにいくら “photorealistic” とか “hyperrealism” とか入れても、イラストの絵柄で強くトレーニングされていることが特徴のベースモデルなのですから、どうしてもイラストっぽくなるし、せいぜい 2.5D の画像が出てくるだけです。これに、写実的な効果を強める LoRA を使っても、逆に絵柄が乱れるだけで、ロクなことにはなりません。

これは、”novaAsianXL_illustriousV70″ という写実的なキャラクターを生成するように調整されているベースモデルでつくった画像です。しかも、モデルの名称から分かるとおりアジア系の人物を出すためにベースモデルが調整されています。私は、もちろん日本人女性の画像から LoRA をトレーニングするために、こういうベースモデルを使っているので、その LoRA で画像を出すときも novaAsianXL_illustriousV70 を使います。ちなみに、この “nova —” シリーズは、アニメのキャラでもトレーニングのベースに使っていて、非常に素直で扱いやすい良いモデルだと思います。SD 1.5 を使っていた頃は ttAnimerge 一択でしたが、これの作者さんは SDXL には手をつけていないので、SDXL では nova シリーズを採用して LoRA のトレーニングに利用しています。
そして、LoRA を使って画像を生成するときの原則は、自分がトレーニングに使ったベースモデルを使うことです。やはりベースモデルの描写に引っ張られるのは当然なので、引っ張られても大きな影響がないよう、アジア人はアジア人の画像を出しやすく調整されたベースモデルを使うのが妥当です。上の画像は AV 女優(最近はこういう言い方をしないPC 的な呼称なのは知ってますが)の「日菜々はのん」さんですが、”novaAsianXL_illustriousV70″ だとまともに出るのに、どれほどスタンダードなベースモデルだと言われていようと、やっぱり DreamShaper XL とか Juggernaught XL のような西洋人を出すのが標準とされるモデルを使うと、顔が西洋人風に引っ張られてしまいます(具体例は、下のような画像です)。当たり前ですよね。

cyberrealistic_v90Exploration
-
SEGA の「ファンタシースターオンライン2 NGS」というゲームを引退した話をしましたが、同じ時期にプレイしはじめた人々、フレンドだったり、同じギルドのメンバーだった人たちの中にも引退する人が出てきているようです。これは X で後から知ったのですが、PSO2NGS をプレイする他のサーバでも極端にプレイヤーが減っていて、アカウントを消したかどうかはともかく、ログインするプレイヤーが減っているために、エリアごとのチャンネル数がどんどん減っていて、たとえば砂漠地帯の「リテム」と呼ばれるエリアのチャンネルは4つしかないという話です。あれ、確かチャンネルごとに同時ログインできるプレイヤーの上限があったので、1チャンネルあたり1,000人としても、リテムに同時ログインできるのは最大で4,000人ということですよね。あそこって、コンサートのイベントがあって能力強化のバフがかかりますから、イベントが発生するとプレイヤーが集まってくるので、言ってみればプレイヤーが集まりやすいエリアのはずです。それでもチャンネルが4つあればいいと運営が判断しているわけですから、1チャンネルあたりの同時ログインが1,000人だと仮定すると、要するに一つのサーバでアクティブなプレイヤーが4,000人もいないということです。これは、MMORPG としては事業を続ける意味があるのかどうか疑ってもいいような数字ですよね。
こういうわけなので、たぶんもう何年もしないうちにサービスは終了するのでしょう。少なくとも私が事業の責任者であれば、いくら収支として赤字でなくても、そもそも営業利益としての規模が縮小しているサービスを続ける意味はありません。
あと、サービスの状況だけでなく、残っているプレイヤーの多くはギルドのスペースでチャットするか、あるいは白チャでこれ見よがしに「俺達の庭アピール」してるガキばっかりで、ウンザリだというフレの話もあります。それから・・・特定のプレイヤーが戦闘エリアに居座って、他のプレイヤーを罵倒して回っているという(笑)、妙なことが起きているといいます。あれって、他のプレイヤーに文句を言うだけなら、運営が言ってる「迷惑行為」にならないのか、あまり誰も話題にしてないようですが、運悪く同じ現場にいて文句を言われると、いくら大人でもこっちだって良い気はしないですよね。
敢えて書いてしまいますが、「HyperElectronic」(ID: PN6298937066)というプレイヤーです。わざとそういうことをやってるのか、あるいはメンヘラなのかはしりませんが、さっさとゲームなんてやめて病院に行けばいいのに。あるいは、こういう人物が家賃を滞納して、執行官とかに切りつけたりするんでしょうか。
IfDefOutFromMyLife
Stable Diffusion ユーザである BlueTriangles のブログ
コメントを投稿するにはログインしてください。